Ежедневно отобранные исследовательские статьи по ИИ с переводами
Контрастная потеря - мощный подход для обучения представлений, где увеличение размера пакета улучшает производительность за счет предоставления большего количества отрицательных примеров для лучшего различения между похожими и различными данными. Однако увеличение размеров пакетов ограничено квадратичным ростом потребления памяти GPU, в основном из-за полной инстанциации матрицы сходства. Для решения этой проблемы мы предлагаем стратегию вычислений на основе плиток, которая разбивает расчет контрастной потери на произвольные маленькие блоки, избегая полной материализации матрицы сходства. Более того, мы предлагаем многоуровневую стратегию разделения для использования иерархической структуры распределенных систем, применяя кольцевую коммуникацию на уровне GPU для оптимизации синхронизации и объединенные ядра на уровне ядер CUDA для снижения накладных расходов на ввод-вывод. Экспериментальные результаты показывают, что предложенный метод масштабирует размеры пакетов до рекордных уровней. Например, он позволяет проводить контрастное обучение модели CLIP-ViT-L/14 с размером пакета 4M или 12M с использованием 8 или 32 A800 80GB без ущерба для точности. По сравнению с передовыми решениями по экономии памяти, он обеспечивает сокращение памяти на два порядка величины при сохранении сопоставимой скорости. Код будет доступен публично.
Большие языковые модели (LLM) страдают от галлюцинаций, относящихся к нефактической информации в созданном контенте, несмотря на их выдающиеся возможности в различных задачах. Тем временем, редактирование знаний было разработано как новая популярная парадигма для исправления ошибочных фактических знаний, закодированных в LLM, с преимуществом избежания повторного обучения с нуля. Однако одной из общих проблем существующих наборов данных для оценки редактирования знаний является то, что они не гарантируют, что LLM действительно генерируют галлюцинационные ответы на вопросы оценки перед редактированием. Когда LLM оцениваются на таких наборах данных после редактирования различными методиками, трудно непосредственно применить результаты для оценки эффективности различных методов редактирования знаний в исправлении галлюцинаций. Таким образом, фундаментальный вопрос остается недостаточно подтвержденным: может ли редактирование знаний действительно исправить галлюцинации в LLM? Мы предложили HalluEditBench для всесторонней оценки методов редактирования знаний в исправлении реальных галлюцинаций. Во-первых, мы строго создаем обширный набор данных о галлюцинациях с 9 областями, 26 темами и более чем 6 000 галлюцинациями. Затем мы оцениваем производительность методов редактирования знаний всесторонне по пяти измерениям, включая Эффективность, Обобщение, Переносимость, Локальность и Устойчивость. Через HalluEditBench мы предоставили новые идеи о потенциалах и ограничениях различных методов редактирования знаний в исправлении галлюцинаций, что может вдохновить на будущие улучшения и способствовать прогрессу в области редактирования знаний.
Модели с длинным контекстом (LCMs) показали большой потенциал в обработке длинных входных последовательностей (даже более 100 миллионов токенов) удобно и эффективно. С значительными успехами недавние исследования указали на то, что LCMs могут точно определять токен-уровневую значимую информацию в контексте. Однако производительность генерации этих LCMs далека от удовлетворительной и может привести к несоответствующим ответам, таким как галлюцинации. Для улучшения способности генерации LCMs существующие работы исследовали влияние размера и качества данных как для предварительного обучения, так и для настройки инструкций. Хотя достигается значительное улучшение, предыдущие методы либо недостаточно эффективны, либо неэффективны. В данной статье мы представляем LOGO (Длинное выравнивание контекста через эффективную оптимизацию предпочтений), стратегию обучения, которая сначала вводит оптимизацию предпочтений для выравнивания длинного контекста. Для преодоления проблемы, связанной с ограничением памяти GPU из-за длинной последовательности, LOGO использует стратегию оптимизации предпочтений без ссылок и применяет метод синтеза позиций для создания обучающих данных. Обучаясь только на 0,3 миллиарда данных на одной машине с GPU 8xA800 в течение 16 часов, LOGO позволяет модели Llama-3-8B-Instruct-80K достичь сравнимой производительности с GPT-4 в задачах реального мира с длинным контекстом, сохраняя при этом исходные возможности модели в других задачах, например, моделировании языка и MMLU. Более того, LOGO может расширить размер окна контекста модели, улучшая ее производительность генерации.
Наличие высококачественных данных является одним из самых важных факторов для улучшения способности рассуждения LLM. Существующие работы продемонстрировали эффективность создания дополнительных данных для обучения на основе исходных вопросов или баз знаний. Недавние исследования показывают, что постоянное увеличение синтеза данных с помощью мощных моделей (например, GPT-4) может дополнительно стимулировать способность к рассуждениям. Несмотря на перспективность, сообщество с открытым исходным кодом по-прежнему испытывает недостаток высококачественных данных в масштабе и методов масштабируемого синтеза данных с доступными затратами. Для решения этой проблемы мы представляем ScaleQuest, масштабируемый и новаторский метод синтеза данных, который использует "маленькие" (например, 7B) модели с открытым исходным кодом для генерации вопросов с нуля без необходимости исходных данных с сложными ограничениями на увеличение. С помощью эффективного ScaleQuest мы автоматически создали набор данных для математических рассуждений, состоящий из миллиона пар задач-решений, которые оказались более эффективными, чем существующие наборы данных с открытым исходным кодом. Это универсально повышает производительность основных моделей с открытым исходным кодом (например, Mistral, Llama3, DeepSeekMath и Qwen2-Math), достигая улучшений от 29,2% до 46,4% на MATH. Следует отметить, что простое донастройка модели Qwen2-Math-7B-Base с использованием нашего набора данных может даже превзойти Qwen2-Math-7B-Instruct, мощную и хорошо настроенную модель на закрытых данных, а также собственные модели, такие как GPT-4-Turbo и Claude-3.5 Sonnet.
Мы предлагаем Framer для интерактивной интерполяции кадров, которая направлена на создание плавного перехода между двумя изображениями в соответствии с творчеством пользователя. Конкретно, помимо ввода начального и конечного кадров, наш подход поддерживает настройку процесса перехода путем настройки траектории некоторых выбранных ключевых точек. Такой дизайн имеет два явных преимущества. Во-первых, включение человеческого взаимодействия смягчает проблему, возникающую из-за множества возможностей преобразования одного изображения в другое, и в свою очередь обеспечивает более тонкий контроль над локальными движениями. Во-вторых, как самая базовая форма взаимодействия, ключевые точки помогают установить соответствие между кадрами, улучшая модель для работы с сложными случаями (например, объекты на начальном и конечном кадрах имеют разные формы и стили). Следует отметить, что наша система также предлагает режим "автопилота", где мы вводим модуль для оценки ключевых точек и автоматической коррекции траектории, чтобы упростить использование на практике. Обширные экспериментальные результаты демонстрируют привлекательную производительность Framer в различных приложениях, таких как морфинг изображений, создание видео ускоренного воспроизведения, интерполяция мультфильмов и т. д. Код, модель и интерфейс будут опубликованы для облегчения дальнейших исследований.
Мы представляем концепцию генеративной бесконечной игры, видеоигры, которая превосходит традиционные границы конечных, жестко закодированных систем, используя генеративные модели. Вдохновленные различием Джеймса П. Карса между конечными и бесконечными играми, мы используем недавние достижения в области генеративного искусственного интеллекта для создания Unbounded: игры симуляции жизни персонажа, полностью охваченной генеративными моделями. В частности, Unbounded черпает вдохновение из симуляций жизни в песочнице и позволяет вам взаимодействовать с вашим автономным виртуальным персонажем в виртуальном мире, кормя, играя и направляя его - с использованием механик без конкретного завершения, созданных LLM, некоторые из которых могут возникнуть самостоятельно. Для разработки Unbounded мы предлагаем технические инновации как в области LLM, так и в области визуальной генерации. Конкретно, мы представляем: (1) специализированную, упрощенную большую языковую модель (LLM), которая динамически генерирует игровые механики, повествования и взаимодействия персонажей в реальном времени, и (2) новый динамический региональный адаптер изображений (IP-Adapter) для моделей зрения, который обеспечивает последовательную, но гибкую визуальную генерацию персонажа в различных средах. Мы оцениваем нашу систему как качественно, так и количественно, показывая значительные улучшения в симуляции жизни персонажа, следовании инструкциям пользователя, согласованности повествования и визуальной согласованности как для персонажей, так и для окружающих сред по сравнению с традиционными подходами.
Решение сложных задач вопросов-ответов на основе диаграмм требует продвинутых способностей к визуальному рассуждению в мультимодельных больших языковых моделях (MLLMs). Недавние исследования подчеркивают, что эти способности состоят из двух основных частей: распознавания ключевой информации из визуальных входов и проведения рассуждений над ней. Таким образом, многообещающим подходом к улучшению MLLMs является создание соответствующих обучающих данных, сосредоточенных на этих двух аспектах. Однако сбор и аннотирование сложных диаграмм и вопросов является затратным и времязатратным процессом, и обеспечение качества аннотированных ответов остается вызовом. В данной статье мы предлагаем метод трансляции кода как посредника (CIT), дешевый, эффективный и легко масштабируемый метод синтеза данных для извлечения способностей к визуальному рассуждению из LLMs в MLLMs. Код служит посредником, который переводит визуальные представления диаграмм в текстовые представления, позволяя LLMs понимать кросс-модальную информацию. В частности, мы используем текстовые методы синтеза для создания кода построения диаграмм и создаем ReachQA, набор данных, содержащий 3 тыс. диаграмм, требующих рассуждений, и 20 тыс. пар вопросов и ответов для улучшения как способностей к распознаванию, так и рассуждения. Эксперименты показывают, что после донастройки наших данных модели не только хорошо справляются с бенчмарками, связанными с диаграммами, но также демонстрируют улучшенные способности к мультимодальному рассуждению на общих математических бенчмарках, таких как MathVista. Код и набор данных доступны публично по адресу https://github.com/hewei2001/ReachQA.
В данном отчете мы представляем набор методов для улучшения моделирования вознаграждения для LLMs, с акцентом на техники, основанные на данных. Мы предлагаем эффективные стратегии выбора и фильтрации данных для создания качественных открытых наборов данных предпочтений, что привело к созданию набора данных Skywork-Reward, содержащего всего 80 тыс. пар предпочтений - значительно меньше существующих наборов данных. Используя этот отобранный набор данных, мы разработали серию моделей Skywork-Reward - Skywork-Reward-Gemma-27B и Skywork-Reward-Llama-3.1-8B, причем первая в настоящее время занимает лидирующую позицию в рейтинге RewardBench. Значительно, что наши методы и наборы данных непосредственно повысили производительность многих лучших моделей в рейтинге RewardBench, подчеркивая практическое значение наших результатов в прикладных задачах обучения предпочтениям в реальном мире.
Большие языковые модели (LLM) могут хранить значительное количество фактических знаний в своих параметрах. Однако их параметрические знания могут противоречить информации, предоставленной в контексте -- это явление, известное как конфликты знаний между контекстом и памятью, может привести к нежелательному поведению модели, такому как полагание на устаревшую или неверную информацию. Анализируя внутренние активации LLM, мы обнаружили, что они могут внутренне регистрировать сигналы конфликта знаний на средних уровнях. Такие сигналы позволяют нам обнаруживать, происходит ли конфликт знаний, и использовать стратегии вмешательства во время вывода для его разрешения. В этой работе мы предлагаем SpARE, метод инженерии представлений без обучения, который использует предварительно обученные разреженные автоэнкодеры (SAE) для управления поведением выбора знаний LLM. SpARE определяет функциональные особенности, которые управляют поведением выбора знаний, и применяет их для редактирования внутренних активаций LLM во время вывода. Наши экспериментальные результаты показывают, что SpARE может эффективно контролировать использование любого источника знаний для разрешения конфликта знаний в задачах ответов на вопросы в открытой области, превосходя существующие методы инженерии представлений (+10%) а также методы контрастного декодирования (+15%).
Продвижения в распределенном обучении и эффективных механизмах внимания значительно увеличили размеры окон контекста крупных языковых моделей (ЯМ). Однако недавние исследования показывают, что эффективные длины контекста открытых ЯМ часто оказываются недостаточными, обычно не превышая половины их длины обучения. В данной работе мы приписываем это ограничение левоскошенному распределению частот относительных позиций, формируемому на этапах предварительного обучения и пост-обучения ЯМ, что затрудняет их способность эффективно собирать удаленную информацию. Для решения этой проблемы мы представляем метод ShifTed Rotray position embeddING (STRING). STRING сдвигает хорошо обученные позиции для перезаписи оригинальных неэффективных позиций во время вывода, улучшая производительность в пределах их существующих длин обучения. Экспериментальные результаты показывают, что без дополнительного обучения STRING значительно улучшает производительность последних крупномасштабных моделей, таких как Llama3.1 70B и Qwen2 72B, более чем на 10 пунктов на популярных длинно-контекстных бенчмарках RULER и InfiniteBench, устанавливая новые результаты state-of-the-art для открытых ЯМ. По сравнению с коммерческими моделями, Llama 3.1 70B с методом даже достигает лучшей производительности, чем GPT-4-128K и явно превосходит Claude 2 и Kimi-chat.
Эффективное моделирование языка с длинным контекстом остается значительной проблемой в обработке естественного языка (NLP). В то время как трансформеры доминируют в языковых задачах, они испытывают трудности с длинными последовательностями из-за квадратичной вычислительной сложности во время обучения и линейного увеличения затрат памяти во время вывода. Недавние модели пространства состояний (SSM), такие как Mamba, предлагают альтернативы с постоянным использованием памяти, но они показывают худшие результаты в задачах, требующих обширного поиска в контексте. Мы представляем Taipan, новую гибридную архитектуру, которая объединяет Mamba-2 с Слоями Селективного Внимания (SAL). Эти SAL идентифицируют токены, требующие взаимодействия на большие расстояния, удаляют менее важные признаки, а затем улучшают их представления с помощью модуля внимания. Этот подход сбалансированно сочетает эффективность Mamba с производительностью, схожей с трансформером, в задачах, требующих больших объемов памяти. Ограничивая бюджет внимания, Taipan расширяет точные прогнозы на длины контекста до 1 миллиона токенов, сохраняя при этом вычислительную эффективность. Наши эксперименты демонстрируют превосходную производительность Taipan на различных масштабах и задачах, предлагая многообещающее решение для эффективного моделирования языка с длинным контекстом.
Сегментация объекта в видео представляет существенные трудности. Каждому пикселю необходимо точно присвоить метку, и эти метки должны оставаться согласованными на протяжении кадров. Сложность возрастает, когда сегментация происходит с произвольной детализацией, что означает, что количество сегментов может произвольно изменяться, а маски определяются на основе только одного или нескольких образцов изображений. В данной статье мы решаем эту проблему, используя предварительно обученную модель диффузии текста в изображение, дополненную дополнительным механизмом отслеживания. Мы демонстрируем, что наш подход эффективно управляет различными сценариями сегментации и превосходит альтернативы, считающиеся передовыми.
Данное исследование затрагивает проблему интерактивного редактирования генерации движения человека. Предыдущие модели диффузии движения лишены явного моделирования соответствия текста и движения на уровне слов и хорошей объяснимости, что ограничивает их способность к тонкой настройке. Для решения этой проблемы мы предлагаем модель диффузии движения на основе внимания, названную MotionCLR, с явным моделированием механизмов внимания CLeaR. Технически MotionCLR моделирует внутри-модальное и перекрестное взаимодействие с помощью самовнимания и перекрестного внимания соответственно. Более конкретно, механизм самовнимания направлен на измерение последовательной схожести между кадрами и влияет на порядок характеристик движения. В отличие от этого, механизм перекрестного внимания работает на поиск тонкого соответствия последовательности слов и активации соответствующих временных шагов в последовательности движения. Исходя из этих ключевых свойств, мы разрабатываем универсальный набор простых, но эффективных методов редактирования движения путем манипулирования картами внимания, таких как (де-)эмфазирование движения, замена движения на месте и генерация движения на основе примеров и т. д. Для дальнейшей проверки объяснимости механизма внимания мы дополнительно исследуем потенциал подсчета действий и способности к генерации движения на основе внимания. Наши экспериментальные результаты показывают, что наш метод обладает хорошей способностью к генерации и редактированию с хорошей объяснимостью.
Разработка веб-сайтов включает превращение дизайна пользовательского интерфейса в функциональные веб-страницы, что может быть сложным как для начинающих, так и для опытных разработчиков из-за сложности иерархических структур и стилей HTML. Несмотря на то, что большие языковые модели (Large Language Models, LLMs) показали потенциал в генерации исходного кода, две основные проблемы остаются в генерации кода UI в HTML: (1) эффективное представление иерархической структуры HTML для LLMs и (2) преодоление разрыва между визуальной природой дизайна пользовательского интерфейса и текстовым форматом HTML-кода. Для решения этих проблем мы представляем Waffle, новую стратегию донастройки, которая использует механизм внимания, осознающий структуру, для улучшения понимания LLMs структуры HTML, а также контрастную стратегию донастройки для согласования понимания LLMs изображений пользовательского интерфейса и HTML-кода. Модели, донастроенные с помощью Waffle, показывают до 9,00 п.п. (процентных пунктов) более высокое соответствие HTML, на 0,0982 выше CW-SSIM, на 32,99 выше CLIP и на 27,12 п.п. выше LLEM на нашем новом бенчмарке WebSight-Test и на существующем бенчмарке Design2Code, превосходя текущие методы донастройки.
В последние годы наблюдается значительный интерес к разработке крупных мультимодальных моделей (LMM), способных выполнять различные задачи визуального рассуждения и понимания. Это привело к появлению нескольких бенчмарков LMM для оценки их производительности на различных задачах. Однако большинство существующих бенчмарков оценки LMM в основном ориентированы на английский язык. В данной работе мы разрабатываем комплексный бенчмарк оценки LMM для арабского языка, чтобы представить большое население более 400 миллионов говорящих. Предложенный бенчмарк, названный CAMEL-Bench, включает в себя восемь разнообразных областей и 38 подобластей, включая мультиизображения, сложное визуальное восприятие, понимание рукописных документов, видеоанализ, медицинское изображение, болезни растений и понимание использования земли на основе дистанционного зондирования для оценки широкой обобщаемости сценария. Наш CAMEL-Bench включает около 29 036 вопросов, отобранных из более крупной выборки, качество которых проверено вручную носителями языка для обеспечения надежной оценки модели. Мы проводим оценку как закрытых источников, включая серию GPT-4, так и открытых мультимодальных моделей. Наш анализ показывает необходимость существенных улучшений, особенно среди лучших моделей с открытым исходным кодом, при этом даже закрытая модель GPT-4o достигает общего рейтинга 62%. Наш бенчмарк и скрипты оценки доступны в открытом доступе.
Большие языковые модели (LLM) часто генерируют галлюцинации, создавая недостоверные или фактически неверные выводы путем искажения предоставленного контекста или неправильного воспоминания внутренних знаний. Недавние исследования выявили конкретные головы внимания в архитектуре Трансформера, известные как головы извлечения, ответственные за извлечение соответствующей контексту информации. Мы предполагаем, что маскирование этих голов извлечения может вызывать галлюцинации и что сравнение выводов базовой LLM и маскированной LLM может снизить галлюцинации. В этой связи мы предлагаем Декодирование путем контрастирования голов извлечения (DeCoRe), новую стратегию декодирования без обучения, которая усиливает информацию, найденную в контексте и параметрах модели. DeCoRe смягчает потенциально галлюцинированные ответы путем динамического сравнения выводов базовой LLM и маскированной LLM с использованием условной энтропии в качестве руководства. Наши обширные эксперименты подтверждают, что DeCoRe значительно улучшает производительность на задачах, требующих высокой верности контексту, таких как суммаризация (XSum на 18,6%), следование инструкциям (MemoTrap на 10,9%) и ответы на вопросы по открытым источникам (NQ-Open на 2,4% и NQ-Swap на 5,5%).
Мы представляем CCI3.0-HQ (https://huggingface.co/datasets/BAAI/CCI3-HQ), высококачественный поднабор данных объемом 500 ГБ из Китайских корпусов Интернета 3.0 (CCI3.0) (https://huggingface.co/datasets/BAAI/CCI3-Data), разработанный с использованием новой гибридной двухэтапной системы фильтрации, которая значительно повышает качество данных. Для оценки его эффективности мы обучили модель с 0.5 миллиарда параметров с нуля на 100 миллиардах токенов по различным наборам данных, достигнув превосходных результатов на 10 бенчмарках в условиях нулевой настройки по сравнению с CCI3.0, SkyPile и WanjuanV1. Процесс фильтрации высокого качества эффективно концентрирует возможности модели Qwen2-72B-instruct в компактную модель с 0.5 миллиарда параметров, достигая оптимальных значений F1 для классификации китайских веб-данных. Мы считаем, что этот набор данных с открытым доступом способствует более широкому доступу к высококачественным языковым моделям.
Модели диффузии обеспечивают высокое качество генерации, но сталкиваются с медленной скоростью генерации из-за итеративной природы удаления шума. В отличие от этого, модели согласованности, новое семейство генеративных моделей, достигают конкурентоспособной производительности с значительно более быстрой выборкой. Эти модели обучаются либо через дистилляцию согласованности, которая использует предварительно обученные модели диффузии, либо непосредственно через обучение/настройку согласованности на исходных данных. В данной работе мы предлагаем новую концепцию для понимания моделей согласованности, моделируя процесс удаления шума модели диффузии как процесс принятия решений Маркова (MDP) и формируя обучение модели согласованности как оценку значения через обучение методом временной разницы (TD Learning). Более того, данная концепция позволяет нам проанализировать ограничения текущих стратегий обучения/настройки согласованности. Основываясь на Easy Consistency Tuning (ECT), мы предлагаем Stable Consistency Tuning (SCT), который включает в себя обучение с уменьшением дисперсии с использованием идентичности оценки. SCT приводит к значительному улучшению производительности на стандартных наборах данных, таких как CIFAR-10 и ImageNet-64. На ImageNet-64 SCT достигает FID на 1 шаге 2,42 и на 2 шагах 1,55, устанавливая новый рекорд для моделей согласованности.
Существующие методы водяных знаков на изображениях уязвимы перед продвинутыми методами редактирования изображений, обеспечиваемыми масштабными моделями текста-к-изображению. Эти модели могут искажать встроенные водяные знаки во время редактирования, представляя значительные вызовы для защиты авторских прав. В данной работе мы представляем W-Bench, первый всеобъемлющий бенчмарк, разработанный для оценки устойчивости методов водяных знаков против широкого спектра техник редактирования изображений, включая восстановление изображения, глобальное редактирование, локальное редактирование и генерацию изображения-в-видео. Через обширные оценки одиннадцати представительных методов водяных знаков против распространенных техник редактирования, мы демонстрируем, что большинство методов не способны обнаружить водяные знаки после таких изменений. Для преодоления этого ограничения мы предлагаем VINE, метод водяных знаков, который значительно повышает устойчивость против различных техник редактирования изображений, сохраняя при этом высокое качество изображения. Наш подход включает два ключевых инновации: (1) мы анализируем частотные характеристики редактирования изображений и определяем, что размытые искажения обладают сходными частотными свойствами, что позволяет использовать их в качестве замещающих атак во время обучения для укрепления устойчивости водяного знака; (2) мы используем масштабную предварительно обученную модель диффузии SDXL-Turbo, адаптируя ее для задачи водяного знака для достижения более незаметного и устойчивого встраивания водяного знака. Экспериментальные результаты показывают, что наш метод достигает выдающегося производительности водяных знаков под различными техниками редактирования изображений, превосходя существующие методы как по качеству изображения, так и по устойчивости. Код доступен по ссылке https://github.com/Shilin-LU/VINE.
Трансформеры могут захватывать зависимости на большие расстояния с помощью самовнимания, позволяя токенам обращаться к другим напрямую. Однако стек из нескольких слоев внимания приводит к концентрации внимания. Один из естественных способов решить эту проблему - использовать внимание между слоями, позволяя информации из более ранних слоев быть непосредственно доступной более поздним слоям. Однако такой подход требует больших вычислительных затрат. Для решения этой проблемы мы предлагаем Трансформер с остаточным значением (ResFormer), который приближает внимание между слоями путем добавления остаточного соединения от значений первого слоя ко всем последующим слоям. На основе этого метода один из вариантов - Трансформер со значением одного слоя (SVFormer), где все слои используют одно и то же встраивание значений из первого слоя, сокращая кэш KV почти на 50%. Обширные эмпирические доказательства показывают, что ResFormer смягчает проблему концентрации внимания в более глубоких слоях и улучшает представление на большинстве слоев, превосходя обычный Трансформер, DenseFormer и NeuTRENO как по ошибке обучения, так и по вспомогательным задачам. SVFormer обучается значительно быстрее, чем обычный Трансформер, и показывает лучшие результаты по сравнению с другими методами, такими как GQA и CLA, с производительностью, зависящей от длины последовательности и накопленной скорости обучения.
Недавние достижения в области мультимодального объединения свидетельствуют о замечательном успехе моделей вид-язык (VL), которые превосходно справляются с различными мультимодальными приложениями, такими как описание изображений и визуальное вопросно-ответное моделирование. Однако создание моделей VL требует значительных аппаратных ресурсов, где эффективность ограничивается двумя ключевыми факторами: расширенная входная последовательность языковой модели с признаками видения требует большего количества вычислительных операций, а большое количество дополнительных обучаемых параметров увеличивает сложность памяти. Эти вызовы значительно ограничивают более широкое применение таких моделей. Для преодоления этого разрыва мы предлагаем ADEM-VL, эффективный метод вид-язык, который настраивает модели VL на основе предварительно обученных крупных языковых моделей (LLM), принимая во внимание механизм кросс-внимания без параметров для измерения сходства в мультимодальном объединении. Этот подход требует только встраивания признаков видения в языковое пространство, что значительно сокращает количество обучаемых параметров и ускоряет как обучение, так и скорость вывода. Для улучшения обучения представлений в модуле объединения мы предлагаем эффективную схему генерации многомасштабных признаков, которая требует только одного прямого прохода через кодировщик видения. Более того, мы предлагаем адаптивную схему объединения, которая динамически отбрасывает менее значимую визуальную информацию для каждого текстового токена на основе его оценки внимания. Это обеспечивает, что процесс объединения приоритизирует наиболее соответствующие визуальные признаки. Проведя эксперименты на различных задачах, включая визуальное вопросно-ответное моделирование, описание изображений и следование инструкциям, мы демонстрируем, что наша структура превосходит существующие подходы. В частности, наш метод превосходит существующие методы на среднюю точность 0,77% на наборе данных ScienceQA, с сокращенной задержкой обучения и вывода, демонстрируя превосходство нашей структуры. Код доступен по адресу https://github.com/Hao840/ADEM-VL.
Большие языковые модели (LLM) считается имеют трудности с изучением арифметики из-за врожденных различий между моделированием языка и числовыми вычислениями, однако конкретных доказательств этого не было. В данной работе отвечается на это утверждение через двусторонний эксперимент. Сначала исследуется, используют ли LLM частичные произведения в процессе изучения арифметики. Мы обнаружили, что хотя LLM могут идентифицировать некоторые частичные произведения после обучения, они не могут использовать их для арифметических задач. Затем исследуется, как LLM подходят к арифметике символически, разбивая задачи на подгруппы, предполагая, что трудности возникают из-за сложности и выбора подгрупп. Наши результаты показывают, что при фиксированной сложности подгрупп LLM обрабатывают набор различных арифметических операций сходным образом. Анализируя точность на уровне позиции при различных размерах обучающих выборок, мы также наблюдаем, что она следует U-образному образцу: LLM быстро усваивают самые простые шаблоны на первой и последней позициях, постепенно учась более сложным шаблонам на средних позициях. Это подтверждает, что LLM выбирают подгруппы, следуя парадигме от простого к сложному в процессе обучения. Наша работа подтверждает, что LLM являются чистыми символическими обучающимися в арифметических задачах и подчеркивает важность глубокого понимания их через количественную оценку на уровне подгрупп.
Редактирование модели стало все более популярной альтернативой для эффективного обновления знаний в моделях языка. Существующие методы в основном сосредотачиваются на надежности, обобщении и локальности, и многие методы превосходят в этих критериях. Некоторые недавние работы раскрывают недостатки этих методов редактирования, такие как искажение или конфликт знаний. Однако общие способности отредактированных моделей языка остаются неизученными. В данной статье мы проводим всестороннюю оценку различных методов редактирования и различных моделей языка, и получаем следующие результаты. (1) Существующие методы редактирования приводят к неизбежному ухудшению производительности на общих бенчмарках, указывая на то, что существующие методы редактирования сохраняют общие способности модели только при нескольких десятках редакций. Когда количество редакций немного увеличивается, внутренняя структура знаний модели нарушается или даже полностью разрушается. (2) Модели, настроенные на инструкции, более устойчивы к редактированию, показывая меньшее падение производительности на общих знаниях после редактирования. (3) Модель языка большого масштаба более устойчива к редактированию по сравнению с небольшой моделью. (4) Безопасность отредактированной модели значительно ослаблена, даже для тех моделей, которые ориентированы на безопасность. Наши результаты указывают на то, что текущие методы редактирования подходят только для обновлений знаний малого масштаба в моделях языка, что мотивирует к дальнейшему исследованию более практичных и надежных методов редактирования. Подробности кода и воспроизведения можно найти по ссылке https://github.com/lqinfdim/EditingEvaluation.
В данной статье мы представляем глубокий анализ математических постановок задач и вероятностных оптимизационных исследований для некоторых ключевых компонентов модели Трансформера в области генеративного искусственного интеллекта. Мы исследуем и обсуждаем потенциальные улучшения для современных методов в некоторых ключевых технологиях генеративных моделей искусственного интеллекта с точки зрения алгоритмической и вероятностной оптимизации. В частности, мы представляем оптимальное решение для кодирования подслов (SWE) на основе аналогичных начальных настроек, как у алгоритма кодирования байт-пар (BPE) в [9], с аналогичными целями, как у подхода WordPiece в [28, 31], для максимизации правдоподобия обучающих данных. Мы также представляем метод оптимизации перекрестной энтропии для оптимизации гиперпараметров модели word2vec [17]. Кроме того, мы предлагаем факторизованное сочетание вращающегося позиционного кодирования (RoPE) [32] и внимания с линейными смещениями (ALiBi) [23] с гармонической последовательностью. Мы также представляем вероятностный метод FlashAttention [6, 7] (PrFlashAttention) с вероятностным распределением по блочным расстояниям в матрице для определения, какой блок вероятнее всего участвует в данном раунде вычисления внимания, сохраняя при этом нижний треугольник тензора для авторегрессионных языковых моделей путем изменения формы тензоров. Наконец, мы представляем ступенчатую адаптивную квантизацию (SAQ) кеша ключ-значение (KV) для многозапросного внимания (MQA) на основе представленной в [16] структуры для постепенного ухудшения квантизации при достижении приемлемого качества модели и экономии затрат.
Доминирующая парадигма для RLHF - это онлайн и он-политика RL: синхронная генерация с использованием политики большой языковой модели (LLM), разметка с помощью модели вознаграждения и обучение с использованием обратной связи по собственным выходам LLM. Хотя это эффективно, эта парадигма вычислительно неэффективна. Вдохновленные классической литературой по глубокому RL, мы предлагаем разделение генерации и обучения в RLHF. Это позволяет асинхронную генерацию новых образцов, одновременно обучаясь на старых образцах, что приводит к более быстрому обучению и оптимальному использованию вычислительных ресурсов. Однако асинхронное обучение основано на малоисследованном режиме, онлайн, но вне политики RLHF: обучение на образцах из предыдущих итераций нашей модели. Чтобы понять вызовы в этом режиме, мы исследуем фундаментальный вопрос: насколько мы можем терпеть отклонение от политики для ускорения обучения, сохраняя при этом производительность? Среди нескольких алгоритмов RLHF, которые мы тестировали, мы обнаружили, что онлайн DPO наиболее устойчив к данным вне политики, и устойчивость увеличивается с масштабом модели политики. Мы изучаем дополнительные оптимизации вычислений для асинхронного RLHF, но обнаруживаем, что они сопровождаются затратами на производительность, возникает компромисс. Наконец, мы проверяем масштабируемость асинхронного RLHF, обучая LLaMA 3.1 8B на задаче следования инструкциям на 40% быстрее, чем синхронный запуск, сохраняя при этом конечную производительность.
Масштабирование данных революционизировало области, такие как обработка естественного языка и компьютерное зрение, обеспечивая модели удивительными обобщающими способностями. В данной статье мы исследуем, существуют ли аналогичные законы масштабирования данных в робототехнике, особенно в робототехническом манипулировании, и может ли соответствующее масштабирование данных привести к созданию политик однозадачных роботов, которые могут быть применены "из коробки" для любого объекта в той же категории в любой среде. Для этого мы проводим всестороннее эмпирическое исследование по масштабированию данных в области обучения имитации. Собрав данные во множестве сред и объектов, мы изучаем, как изменяется обобщающая способность политики в зависимости от количества тренировочных сред, объектов и демонстраций. На протяжении нашего исследования мы собрали более 40 000 демонстраций и провели более 15 000 реальных запусков роботов в рамках строгого протокола оценки. Наши результаты раскрывают несколько увлекательных выводов: обобщающая способность политики следует примерно степенному закону относительно количества сред и объектов. Разнообразие сред и объектов намного важнее, чем абсолютное количество демонстраций; после достижения определенного порога количества демонстраций на среду или объект, дополнительные демонстрации оказывают минимальное воздействие. Основываясь на этих выводах, мы предлагаем эффективную стратегию сбора данных. С четырьмя сборщиками данных, работающими один день, мы собираем достаточно данных для того, чтобы политики для двух задач достигли примерно 90% успешных результатов в новых средах с невидимыми объектами.
Выбор данных имеет решающее значение для оптимизации производительности языковой модели (LM) на конкретных задачах, однако большинство существующих методов не учитывают целевое распределение задачи эффективно. Существующие подходы либо полностью игнорируют требования, специфичные для задачи, либо полагаются на приближения, которые не улавливают тонкие шаблоны, необходимые для задач, таких как автоформализация или генерация кода. Методы, которые учитывают целевое распределение, часто полагаются на упрощенные, иногда шумные, представления, такие как хэшированные n-граммные признаки, которые могут привести к коллизиям и внесению шума. Мы представляем ZIP-FIT, фреймворк выбора данных, который использует сжатие gzip для непосредственного измерения соответствия потенциальных обучающих данных и целевого распределения задачи. В обширных оценках автоформализации и генерации кода на Python ZIP-FIT значительно превосходит ведущие базовые уровни, такие как DSIR и D4. Модели, обученные на данных, отобранных с помощью ZIP-FIT, достигают своих наименьших потерь перекрестной энтропии до 85,1\% быстрее, чем базовые уровни, демонстрируя, что лучшее соответствие задаче приводит к более эффективному обучению. Кроме того, ZIP-FIT выполняет выбор данных до 65,8\% быстрее, чем DSIR, и на два порядка быстрее, чем D4. Строго говоря, ZIP-FIT показывает, что меньшие, хорошо соотнесенные наборы данных часто превосходят более крупные, но менее целевые, демонстрируя, что небольшое количество данных более высокого качества превосходит большое количество данных более низкого качества. Наши результаты подразумевают, что осознанный выбор данных, учитывающий задачу, имеет решающее значение для эффективной адаптации к домену, и что сжатие предлагает принципиальный способ измерения соответствия задаче. Показав, что целевой выбор данных может значительно улучшить производительность, специфичную для задачи, наша работа предоставляет новые идеи относительно взаимосвязи между качеством данных, соответствием задаче и эффективностью обучения модели.
Мы рассматриваем многодрафтовую спекулятивную выборку, где последовательности предложений выбираются независимо из различных моделей черновиков. На каждом шаге схема выбора черновика на уровне токенов принимает список допустимых токенов на вход и генерирует токен на выходе, чье распределение соответствует целевой модели. Предыдущие работы показали, что оптимальную схему (максимизирующую вероятность принятия одного из входных токенов) можно представить в виде решения линейной программы. В данной работе мы показываем, что оптимальную схему можно разложить на двухэтапное решение: на первом этапе используется схема типа важности выборки (IS) для выбора одного промежуточного токена; на втором этапе применяется спекулятивная выборка (однодрафтовая) для генерации выходного токена. Для случая двух идентичных моделей черновиков мы дополнительно 1) устанавливаем необходимое и достаточное условие для равенства вероятности принятия единице у распределений целевой и черновых моделей и 2) предоставляем явное выражение для оптимальной вероятности принятия. Наше теоретическое исследование также мотивирует новый класс схем выбора на уровне токенов на основе взвешенной важности выборки. Наши экспериментальные результаты демонстрируют последовательные улучшения в достижимой эффективности блока и скорости токенов по сравнению с базовыми схемами в ряде сценариев.
Машинное доказательство теорем относится к процессу структурированного рассуждения для автоматического генерирования доказательств математических теорем. Недавно возникло повышенное интересное к использованию моделей машинного обучения совместно с помощниками по доказательствам для выполнения этой задачи. В данной статье мы представляем Pantograph, инструмент, который предоставляет универсальный интерфейс к помощнику Lean 4 и обеспечивает эффективный поиск доказательств с помощью мощных алгоритмов поиска, таких как Монте-Карло поиск по дереву. Кроме того, Pantograph обеспечивает высокоуровневое рассуждение, позволяя более надежно обрабатывать шаги вывода Lean 4. Мы предоставляем обзор архитектуры и функций Pantograph. Мы также сообщаем об иллюстративном примере использования: использование моделей машинного обучения и эскизов доказательств для доказательства теорем Lean 4. Инновационные функции Pantograph прокладывают путь для более продвинутых моделей машинного обучения для выполнения сложных поисков доказательств и высокоуровневого рассуждения, что позволит будущим исследователям создавать более универсальные и мощные доказатели теорем.