Ежедневно отобранные исследовательские статьи по ИИ с переводами
Мы предлагаем новый долгосрочный финансовый бенчмарк FailSafeQA, разработанный для проверки устойчивости и контекстоспособности LLM по шести вариациям человеко-интерфейсных взаимодействий в системах вопрос-ответ на основе LLM в финансовой сфере. Мы сосредотачиваемся на двух кейс-исследованиях: Отказ в запросе и Отказ в контексте. В сценарии Отказа в запросе мы искажаем исходный запрос для изменения уровня экспертизы домена, полноты и лингвистической точности. В случае Отказа в контексте мы симулируем загрузку ухудшенных, несвязанных и пустых документов. Мы используем методологию LLM-как-судья с Qwen2.5-72B-Instruct и применяем критерии оценки с Feinberg-Grund и Compliance для определения и расчета показателей Устойчивости, Контекстной опоры и Соответствия для 24 моделей из коробки. Результаты показывают, что хотя некоторые модели отлично справляются с устранением входных искажений, им необходимо находить баланс между устойчивым ответом и способностью воздерживаться от галлюцинаций. Особенно стоит отметить, что модель Palmyra-Fin-128k-Instruct, признанная наиболее соответствующей, сохраняла высокую базовую производительность, но столкнулась с трудностями в поддержании устойчивых прогнозов в 17% тестовых случаев. С другой стороны, наиболее устойчивая модель OpenAI o3-mini, выдумывала информацию в 41% протестированных случаев. Результаты показывают, что даже у высокопроизводительных моделей есть значительный потенциал для улучшения и подчеркивают роль FailSafeQA как инструмента для разработки LLM, оптимизированных для надежности в финансовых приложениях. Набор данных доступен по ссылке: https://huggingface.co/datasets/Writer/FailSafeQA
Мы показываем, что обучение с подкреплением, примененное к большим языковым моделям (LLM), значительно повышает производительность на сложных задачах кодирования и рассуждений. Кроме того, мы сравниваем две общие модели рассуждений - OpenAI o1 и раннюю точку о3 - с системой, специфичной для области, o1-ioi, которая использует ручные стратегии вывода, разработанные для участия в Международной олимпиаде по информатике (IOI) 2024. Мы участвовали в прямом эфире на IOI 2024 с o1-ioi и, используя ручные стратегии на этапе тестирования, заняли 49-й процентиль. При более мягких ограничениях соревнования o1-ioi получил золотую медаль. Однако при оценке более поздних моделей, таких как o3, мы обнаружили, что o3 достигает золота без ручных специфичных для области стратегий или смягченных ограничений. Наши результаты показывают, что хотя специализированные конвейеры, такие как o1-ioi, приводят к существенным улучшениям, масштабируемая общепринятая модель o3 превосходит эти результаты, не полагаясь на ручные эвристики вывода. Следует отметить, что o3 достигает золотой медали на IOI 2024 и получает рейтинг Codeforces на уровне элитных человеческих соперников. В целом, эти результаты указывают на то, что масштабирование общепринятого обучения с подкреплением, вместо полаганиясь на специфические для области техники, предлагает надежный путь к передовому искусству в области искусственного интеллекта в областях рассуждений, таких как соревновательное программирование.
Рассуждение является фундаментальной способностью крупных языковых моделей. В то время как предыдущие исследования в основном сосредотачивались на улучшении узких навыков, таких как математика или генерация кода, улучшение производительности на многих других задачах рассуждения остается сложной из-за ограниченных и фрагментированных обучающих данных. Для решения этой проблемы мы предлагаем CodeI/O, новый подход, который систематически сжимает разнообразные образцы рассуждений, встроенные в контекстуально обоснованные коды, путем преобразования исходного кода в формат предсказания ввода-вывода кода. Обучая модели предсказывать входы/выходы на основе кода и тестовых случаев полностью на естественном языке в виде цепочки рассуждений (CoT), мы подвергаем их универсальным примитивам рассуждения - таким как планирование логического потока, поиск пространства состояний, обход дерева решений и модульное декомпозиция - одновременно отделяя структурированное рассуждение от специфического для кода синтаксиса и сохраняя процедурную строгость. Экспериментальные результаты показывают, что CodeI/O приводит к последовательному улучшению результатов на символьных, научных, логических, математических и числовых и общезначимых задачах рассуждения. Путем сопоставления существующих выходных данных или повторного выполнения кода с предсказанными входами мы можем проверить каждое предсказание и дополнительно улучшить цепочки рассуждений через многократную ревизию, что приводит к CodeI/O++ и достижению более высокой производительности. Наши данные и модели доступны по адресу https://github.com/hkust-nlp/CodeIO.
Большие модели рассуждений (Large Reasoning Models, LRMs) решают сложные проблемы рассуждений, следуя длинным цепям мыслей (Long CoT), которые включают в себя отражение, откат и самопроверку. Однако методики обучения и требования к данным для вызова Long CoT остаются плохо понятыми. В данной работе мы обнаружили, что Большая Языковая модель (Large Language Model, LLM) может эффективно изучать рассуждения Long CoT через эффективное обучение с учителем на основе данных (Data-Efficient Supervised Fine-Tuning, SFT) и параметрически эффективную адаптацию низкого ранга (Parameter-Efficient Low-Rank Adaptation, LoRA). С помощью всего 17 тыс. обучающих выборок Long CoT модель Qwen2.5-32B-Instruct достигает значительных улучшений на широком спектре математических и кодовых бенчмарков, включая 56,7% (+40,0%) на AIME 2024 и 57,0% (+8,1%) на LiveCodeBench, конкурентоспособно по сравнению со счетом собственной модели o1-preview в размере 44,6% и 59,1%. Более того, мы обнаружили, что структура Long CoT критична для процесса обучения, в то время как содержание отдельных шагов рассуждений оказывает минимальное влияние. Воздействия, затрагивающие содержание, такие как обучение на неправильных образцах или удаление ключевых слов рассуждения, имеют незначительное влияние на производительность. В отличие от этого, структурные модификации, нарушающие логическую последовательность в Long CoT, такие как перетасовка или удаление шагов рассуждений, значительно снижают точность. Например, модель, обученная на образцах Long CoT с неправильными ответами, все равно достигает лишь на 3,2% более низкой точности по сравнению с обучением на полностью правильных образцах. Эти умозаключения углубляют наше понимание того, как вызывать рассуждательные способности в LLM и выделяют ключевые соображения для эффективного обучения следующего поколения моделей рассуждений. Это академическая статья нашей предыдущей выпущенной модели Sky-T1-32B-Preview. Коды доступны по ссылке https://github.com/NovaSky-AI/SkyThought.
Прогнозирование движения акций, основная задача в прогнозировании финансовых временных рядов, требует идентификации и извлечения критически важных влияющих факторов из огромного объема временных рядов. Однако существующие методы поиска, основанные на тексте или числовом сходстве, не справляются с анализом сложных финансовых данных. Для решения этой проблемы мы предлагаем первую рамочную модель с увеличением поиска (RAG) для прогнозирования финансовых временных рядов, включающую три ключевых инновации: тонко настроенную модель языка с 1 миллиардом параметров (StockLLM) в качестве основы, новый метод выбора кандидатов, использующий обратную связь LLM, и целевую функцию обучения, максимизирующую сходство между запросами и исторически значимыми последовательностями. Это позволяет нашему поисковику, FinSeer, выявлять значимые закономерности, минимизируя шум в сложных финансовых данных. Мы также создаем новые наборы данных, интегрируя финансовые показатели и исторические цены акций для обучения FinSeer и обеспечения надежной оценки. Экспериментальные результаты показывают, что наша рамочная модель RAG превосходит базовую модель StockLLM и случайный поиск, подчеркивая ее эффективность, в то время как FinSeer превосходит существующие методы поиска, достигая на 8\% более высокой точности на BIGDATA22 и извлекая более значимые последовательности. Эта работа подчеркивает важность индивидуальных моделей поиска в финансовом прогнозировании и предоставляет новую рамочную модель для будущих исследований.
В данном техническом отчете мы представляем Magic 1-For-1 (Magic141), эффективную модель генерации видео с оптимизированным потреблением памяти и задержкой вывода. Основная идея проста: факторизация задачи генерации текста в видео на два отдельных более простых этапа для дистилляции шага диффузии, а именно генерация текста в изображение и изображения в видео. Мы подтверждаем, что при использовании того же алгоритма оптимизации задача изображения в видео действительно легче сходится, чем задача текста в видео. Мы также исследуем набор трюков оптимизации для снижения вычислительных затрат на обучение моделей изображения в видео (I2V) с трех аспектов: 1) ускорение сходимости модели с помощью инъекции мультимодального априорного условия; 2) ускорение задержки вывода путем применения адверсариальной дистилляции шага и 3) оптимизация затрат памяти вывода с помощью разрежения параметров. С помощью этих техник мы можем генерировать видеоролики длиной 5 секунд менее чем за 3 секунды. Применяя скользящее окно времени тестирования, мы можем создавать видео длиной в минуту менее чем за минуту с значительно улучшенным визуальным качеством и динамикой движения, затрачивая менее 1 секунды на создание видеороликов длительностью в 1 секунду в среднем. Мы проводим ряд предварительных исследований, чтобы выяснить оптимальный баланс между вычислительными затратами и качеством видео во время дистилляции шага диффузии и надеемся, что это может стать хорошей моделью-основой для исследований с открытым исходным кодом. Код и веса модели доступны на https://github.com/DA-Group-PKU/Magic-1-For-1.
Мы проводим эмпирическое исследование потенциала предварительного обучения моделей видео-языкового восприятия в масштабах, ранее не встречавшихся: 100 миллиардов примеров. Мы обнаружили, что производительность модели имеет тенденцию к насыщению на этом масштабе на многих распространенных классификационных и поисковых бенчмарках, таких как COCO Captions. Тем не менее, задачи культурного разнообразия достигают более существенных улучшений благодаря веб-данным масштаба 100 миллиардов, за счет охвата уникальных концепций. Кроме того, мы анализируем мультиязычность модели и показываем улучшения в языках с ограниченными ресурсами. Кроме того, мы замечаем, что уменьшение размера набора данных для предварительного обучения с помощью фильтров качества, таких как использование CLIP, обычно применяемых для улучшения производительности, может нежелательно снизить культурное разнообразие, представленное даже в крупномасштабных наборах данных. Наши результаты подчеркивают, что в то время как традиционные бенчмарки могут не получить значительной выгоды от масштабирования шумных, необработанных веб-данных до 100 миллиардов примеров, этот масштаб данных важен для создания по-настоящему инклюзивных мультимодальных систем.
Законы масштабирования обычно подбираются с использованием семейства моделей с узким диапазоном замороженных выборов гиперпараметров. В данной работе мы изучаем законы масштабирования, используя широкий спектр архитектур и выборов гиперпараметров, и выделяем их влияние на получаемые рекомендации. В качестве основного артефакта нашего исследования мы выпускаем Gemstones: самый полный набор данных по законам масштабирования на сегодняшний день, состоящий из более чем 4000 контрольных точек от трансформеров с до 2 миллиардами параметров; эти модели были обучены с различными скоростями обучения, расписаниями остывания и архитектурными формами. Наши контрольные точки позволяют более сложные исследования масштабирования, такие как закон, предсказывающий производительность языкового моделирования как функцию ширины и глубины модели. Изучая различные аспекты нашего набора моделей, мы обнаруживаем, что рекомендации законов масштабирования могут быть чрезвычайно чувствительны к процессу экспериментального проектирования и конкретным контрольным точкам модели, использованным во время подгонки. Код: https://github.com/mcleish7/gemstone-scaling-laws
Обучение больших языковых моделей (LLM) критиковать и улучшать свои выводы является ключевым для создания систем, способных итеративно улучшаться, однако это фундаментально ограничивается способностью предоставлять точные суждения и действенные предложения. В данной работе мы изучаем критиков LLM для генерации кода и предлагаем CTRL, фреймворк для Обучения Критика через Обучение с Подкреплением, который обучает модель критика генерировать обратную связь, максимизирующую производительность коррекции для фиксированной модели генератора без участия человека. Наши результаты демонстрируют, что критики, обученные с помощью CTRL, значительно улучшают проходные баллы и смягчают накапливающиеся ошибки как для базовых, так и для более мощных моделей генераторов. Более того, мы показываем, что эти модели критиков действуют как точные генеративные модели вознаграждения и позволяют масштабирование на этапе тестирования через итеративное критическое редактирование, достигая до 106,1% относительного улучшения по сложным бенчмаркам генерации кода.
Генерация видео на основе DiT достигла замечательных результатов, однако исследования по улучшению существующих моделей остаются относительно неисследованными. В данной работе мы представляем подход к улучшению согласованности и качества видео, сгенерированных на основе DiT, без необходимости обучения, который мы назвали Enhance-A-Video. Основная идея заключается в улучшении корреляций между кадрами на основе временного внимания, не ограниченного диагональю. Благодаря простому дизайну наш подход может быть легко применен к большинству фреймворков генерации видео на основе DiT без необходимости повторного обучения или донастройки. На различных моделях генерации видео на основе DiT наш подход продемонстрировал многообещающие улучшения как во временной согласованности, так и в визуальном качестве. Мы надеемся, что эти исследования могут вдохновить будущие исследования в области улучшения генерации видео.
Фундаментальные модели революционизировали обработку естественного языка и искусственный интеллект, значительно улучшив способность машин понимать и генерировать человеческие языки. Вдохновленные успехом этих фундаментальных моделей, исследователи разработали фундаментальные модели для отдельных научных областей, включая малые молекулы, материалы, белки, ДНК и РНК. Однако эти модели обычно обучаются изолированно, лишены возможности интеграции между различными научными областями. Признавая, что сущности в этих областях могут быть представлены в виде последовательностей, которые вместе формируют "язык природы", мы представляем модель Nature Language Model (кратко NatureLM) - на основе последовательностей фундаментальную научную модель, разработанную для научных открытий. Предварительно обученная данными из различных научных областей, NatureLM предлагает объединенную, универсальную модель, способную к различным применениям, включая: (i) генерацию и оптимизацию малых молекул, белков, РНК и материалов с использованием текстовых инструкций; (ii) генерацию/дизайн между областями, такие как преобразование белка в молекулу и белка в РНК; и (iii) достижение передовой производительности в задачах, таких как перевод SMILES в IUPAC и ретросинтез на USPTO-50k. NatureLM предлагает многообещающий обобщенный подход для различных научных задач, включая поиск лекарств (генерация/оптимизация хитов, оптимизация ADMET, синтез), разработку новых материалов и создание терапевтических белков или нуклеотидов. Мы разработали модели NatureLM различного размера (1 миллиард, 8 миллиардов и 46,7 миллиарда параметров) и обнаружили явное улучшение производительности с увеличением размера модели.
В связи с недостатком предварительных данных, ориентированных на агента, автономные агенты на основе LLM обычно полагаются на сложные подсказки или обширное донастройка, что часто не позволяет внедрить новые возможности, сохраняя при этом сильную обобщаемость. Мы представляем Hephaestus-Forge, первый крупномасштабный корпус предварительного обучения, разработанный для улучшения основных возможностей агентов LLM в вызове функций API, внутреннем рассуждении и планировании, а также в адаптации к обратной связи от окружающей среды. Hephaestus-Forge включает в себя 103 млрд агенто-специфических данных, охватывающих 76 537 API, включая как документацию по инструментам для введения знаний о функциях API, так и траектории вызова функций для укрепления внутреннего рассуждения. Для изучения эффективных протоколов обучения мы исследуем законы масштабирования для определения оптимального рецепта в соотношениях смешивания данных. Путем непрерывного предварительного обучения на Hephaestus-Forge, Hephaestus превосходит мало- и среднемасштабные LLM с открытым исходным кодом и конкурирует с коммерческими LLM на трех агентных бенчмарках, демонстрируя эффективность нашего корпуса предварительного обучения в улучшении основных агентных возможностей и обобщения LLM на новые задачи или среды.
Недавние методы генерации изображений в видео продемонстрировали успех в обеспечении контроля над одним или двумя визуальными элементами, такими как траектория камеры или движение объекта. Однако эти методы не могут обеспечить контроль над несколькими визуальными элементами из-за ограничений в данных и эффективности сети. В данной статье мы представляем VidCRAFT3, новую концепцию для точной генерации изображений в видео, которая позволяет одновременно контролировать движение камеры, движение объекта и направление освещения. Для более эффективного разделения контроля над каждым визуальным элементом мы предлагаем Пространственный Тройной-Внимательный Трансформер, интегрирующий направление освещения, текст и изображение симметричным образом. Поскольку большинство видеоданных из реального мира не содержат аннотаций по освещению, мы создаем высококачественный синтетический набор данных видео, названный VideoLightingDirection (VLD). Этот набор данных включает аннотации по направлению освещения и объекты с различным внешним видом, что позволяет VidCRAFT3 эффективно обрабатывать сильные эффекты преломления и отражения света. Кроме того, мы предлагаем трехэтапную стратегию обучения, которая устраняет необходимость в обучающих данных с аннотациями по нескольким визуальным элементам (движение камеры, движение объекта и направление освещения) одновременно. Обширные эксперименты на стандартных наборах данных демонстрируют эффективность VidCRAFT3 в создании видеоконтента высокого качества, превосходящего существующие передовые методы по показателям детализации контроля и визуальной последовательности. Весь код и данные будут общедоступны. Страница проекта: https://sixiaozheng.github.io/VidCRAFT3/.
Мы представляем Pippo, генеративную модель, способную создавать видео с плотным оборотом разрешением 1K человека на основе одного случайно сделанного фото. Pippo - это многообзорный диффузионный трансформер, который не требует дополнительных входных данных, например, подгоняемой параметрической модели или параметров камеры входного изображения. Мы предварительно обучаем Pippo на 3 миллиардах изображений людей без подписей и проводим многообзорное обучение в середине и после обучения на людях, сфотографированных в студии. Во время обучения в середине, чтобы быстро усвоить данные из студии, мы уменьшаем шум нескольких (до 48) видов с низким разрешением и грубо кодируем целевые камеры, используя неглубокую MLP. Во время пост-обучения мы уменьшаем шум меньшего количества видов с высоким разрешением и используем управление, выровненное по пикселям (например, пространственный якорь и лучи Плюккера), чтобы обеспечить 3D-согласованные генерации. На этапе вывода мы предлагаем технику смещения внимания, позволяющую Pippo одновременно генерировать более чем в 5 раз больше видов, чем видел во время обучения. Наконец, мы также представляем улучшенную метрику для оценки 3D-согласованности многообзорных генераций и показываем, что Pippo превосходит существующие работы по многообзорной генерации человека на основе одного изображения.
Большие языковые модели (LLM) часто проявляют выдающиеся результаты на общедоступных бенчмарках, но эти высокие оценки могут скрывать чрезмерную зависимость от специфических для набора данных признаков на поверхности, а не от истинного понимания языка. Мы представляем детектор переобучения на бенчмарке Хамелеон (C-BOD), фреймворк метаоценки, который систематически искажает запросы бенчмарка с помощью параметрического преобразования и обнаруживает переобучение LLM. Путем переформулирования входных данных, сохраняя их семантическое содержание и метки, C-BOD показывает, является ли производительность модели обусловлена запомненными шаблонами. Оцененный на бенчмарке MMLU с использованием 26 ведущих LLM, наш метод показывает среднее снижение производительности на 2,15% при небольших искажениях, причем 20 из 26 моделей демонстрируют статистически значимые различия. Замечательно, что модели с более высокой базовой точностью показывают более значительные различия в производительности при искажении, а более крупные LLM, как правило, более чувствительны к переформулировкам, что указывает на то, что в обоих случаях может наблюдаться чрезмерная зависимость от фиксированных шаблонов запросов. В отличие от этого, семейство Llama и модели с более низкой базовой точностью показывают незначительное снижение, что указывает на уменьшенную зависимость от поверхностных признаков. Более того, дизайн C-BOD, независимый от набора данных и модели, позволяет легко интегрировать его в процессы обучения для поощрения более надежного понимания языка. Наши результаты ставят перед сообществом задачу преодоления оценок в рейтингах и приоритизации устойчивости и обобщения в оценке LLM.
Большинство моделей поиска зависят от внутренних произведений векторов для создания оценки релевантности между запросом и документом. Это естественным образом ограничивает выразительность оценки релевантности, которая может быть использована. Мы предлагаем новую парадигму: вместо создания вектора для представления запроса мы создаем небольшую нейронную сеть, которая действует как обученная функция релевантности. Эта небольшая нейронная сеть принимает представление документа, в данной статье мы используем один вектор, и создает скалярную оценку релевантности. Для создания этой небольшой нейронной сети мы используем гиперсеть, сеть, которая создает веса для других сетей, в качестве нашего кодера запросов или, как мы называем его, Гипкодера. Эксперименты на задачах поиска внутри домена показывают, что Гипкодер способен значительно превзойти сильные модели плотного поиска и имеет более высокие метрики, чем модели переранжирования и модели порядка в десятки раз большие. Гипкодер также показывает хорошую обобщающую способность на задачах поиска вне домена. Для оценки возможностей Гипкодера мы проводим оценку на наборе сложных задач поиска, включая поиск на кончике языка и задачи по следованию инструкциям, и обнаруживаем, что разрыв в производительности существенно увеличивается по сравнению со стандартными задачами поиска. Кроме того, чтобы продемонстрировать практичность нашего метода, мы реализуем приближенный алгоритм поиска и показываем, что наша модель способна искать 8,8 млн документов менее чем за 60 мс.
Технология оптического распознавания символов (OCR) широко используется для извлечения текста из изображений документов, обеспечивая эффективную цифровизацию и извлечение данных. Однако простое извлечение текста недостаточно при работе с сложными документами. Полное понимание таких документов требует понимания их структуры, включая форматирование, формулы, таблицы, порядок чтения нескольких блоков и столбцов на нескольких страницах, а также семантической информации для обнаружения элементов, таких как сноски и подписи к изображениям. Это всестороннее понимание критично для последующих задач, таких как извлечение, ответы на вопросы по документам и курирование данных для обучения больших языковых моделей (LLM) и моделей языка и зрения (VLM). Для решения этой проблемы мы представляем \'Eclair, универсальный инструмент для извлечения текста, специально разработанный для обработки широкого спектра типов документов. Получив изображение, \'Eclair способен извлекать отформатированный текст в порядке чтения, а также ограничивающие рамки и соответствующие семантические классы. Для тщательной оценки этих новых возможностей мы представляем наш разнообразный человеко-аннотированный бенчмарк для OCR на уровне документа и семантической классификации. \'Eclair достигает передовой точности на этом бенчмарке, превосходя другие методы по ключевым метрикам. Кроме того, мы оцениваем \'Eclair на установленных бенчмарках, демонстрируя его универсальность и силу по различным стандартам оценки.
Многомодельные модели больших языков (MLLM) испытывают трудности с длинными видео из-за необходимости большого количества визуальных токенов. Эти токены значительно превышают длину контекста MLLM, что приводит к заполнению избыточными задачно-нерелевантными кадрами. Проблема выбора кадров остается нерешенной и критической: разреженная выборка может упустить ключевые детали, в то время как исчерпывающая выборка перегружает модель нерелевантным контентом, что приводит к непониманию видео. Для решения этой проблемы мы предлагаем метод "Цепочка подсказок кадров" (CoS). Основная идея заключается в том, чтобы представить выбор кадров как оптимизацию визуальной подсказки во время тестирования, выбирая кадры, адаптированные к семантической задаче понимания видео путем оптимизации соответствия между кадрами и задачей. CoS состоит из двух ключевых частей: (1) механизм бинарного видеорезюме, выполняющий псевдо-временное привязывание, обнаруживающий бинарное кодирование для идентификации задачно-релевантных кадров, и (2) модуль видео-совместного рассуждения, который использует бинарное кодирование для сопоставления (обучения выравниванию) задачно-релевантных положительных кадров с нерелевантными отрицательными кадрами. Он встраивает оптимизированный выбор кадров в исходное видео, обеспечивая фокус на соответствующем контексте для оптимизации понимания длинного видео. Эксперименты на трех базовых уровнях и пяти наборах данных демонстрируют эффективность и адаптивность CoS. Код предоставлен по ссылке https://lwpyh.github.io/CoS.
Большие языковые модели (LLM) обнаружены страдать от точного извлечения ключевой информации. Для решения этой проблемы мы предлагаем Масочное Улучшение Авторегрессивного Прогнозирования (MEAP), простую, но эффективную парадигму обучения, которая плавно интегрирует Масочное Языковое Моделирование (MLM) в Прогнозирование Следующего Токена (NTP) для улучшения способностей последнего к извлечению информации в контексте. Конкретно, MEAP сначала случайным образом маскирует небольшую долю входных токенов, а затем непосредственно выполняет стандартное авторегрессивное прогнозирование следующего токена с использованием только декодера Transformer. MEAP устраняет необходимость в двунаправленном внимании или архитектурах кодер-декодер для MLM, не принося дополнительной вычислительной нагрузки во время предварительного обучения или вывода. Интенсивные эксперименты демонстрируют, что MEAP значительно превосходит NTP в извлечении ключевой информации и задачах рассуждения на длинных контекстах, при этом показывая сопоставимые или лучшие результаты в задачах здравого смысла. Преимущества MEAP также распространяются на надзорное дообучение, где он демонстрирует замечательные преимущества в сценариях потерянного в середине, превосходя NTP на 11,77 процентных пункта. Наш анализ показывает, что эффективность MEAP проистекает из его способности сосредотачиваться на более различимых оценках внимания, концентрируясь на уменьшенном наборе немаскированных токенов. Этот механизм улучшает фокус модели на сигналах, релевантных для задачи, смягчая влияние периферийного контекста. Эти результаты позиционируют MEAP как многообещающую парадигму обучения для больших языковых моделей.
Система компьютерного проектирования (Computer Aided Design, CAD) является неотъемлемой в различных отраслях. Редактирование CAD на основе текста, которое автоматизирует модификацию CAD-моделей на основе текстовых инструкций, имеет большой потенциал, но остается недостаточно исследованным. Существующие методы в основном сосредотачиваются на генерации вариаций дизайна или создании CAD на основе текста, либо не обеспечивают поддержку управления на основе текста, либо игнорируют существующие CAD-модели как ограничения. Мы представляем CAD-Editor, первую платформу для редактирования CAD на основе текста. Для решения проблемы требования тройных данных с точным соответствием для обучения мы предлагаем автоматизированную конвейерную синтезацию данных. Этот конвейер использует модели вариации дизайна для генерации пар оригинальных и отредактированных CAD-моделей и использует большие модели видение-язык (Large Vision-Language Models, LVLMs) для обобщения их различий в инструкции по редактированию. Для решения сложной природы редактирования CAD на основе текста мы предлагаем рамочную модель "найти-заполнить", которая декомпозирует задачу на две узконаправленные подзадачи: поиск областей, требующих модификации, и заполнение этих областей соответствующими изменениями. Большие языковые модели (Large Language Models, LLMs) служат основой для обеих подзадач, используя свои возможности в понимании естественного языка и знании CAD. Эксперименты показывают, что CAD-Editor достигает превосходной производительности как количественно, так и качественно.
Мы представляем Goedel-Prover, открытую модель большого языка (LLM), которая достигает передовой производительности в автоматическом создании формальных доказательств для математических задач. Основным вызовом в этой области является дефицит формализованных математических утверждений и доказательств, с которым мы справляемся следующим образом. Мы обучаем формализаторы утверждений для перевода естественноязычных математических задач из Numina на формальный язык (Lean 4), создавая набор данных из 1,64 миллиона формальных утверждений. LLM используются для проверки того, что формальные утверждения точно сохраняют содержание исходных естественноязычных задач. Затем мы итеративно создаем большой набор данных формальных доказательств, обучая серию доказывателей. Каждый доказыватель успешно доказывает множество утверждений, которые предыдущие не могли, и эти новые доказательства добавляются в обучающий набор данных для следующего доказывателя. Финальный доказыватель превосходит все существующие модели с открытым исходным кодом в создании полных доказательств. На мини-тесте miniF2F он достигает успеха в 57,6% случаев (Pass@32), превосходя предыдущую лучшую модель с открытым исходным кодом на 7,6%. На тесте PutnamBench Goedel-Prover успешно решает 7 задач (Pass@512), занимая первое место в рейтинге. Более того, он генерирует 29,7 тыс. формальных доказательств для задач Lean Workbook, почти вдвое больше, чем 15,7 тыс., созданных ранее.
Для полного понимания моделей зрения необходимо не только интерпретировать их выученные характеристики, но и подтверждать эти интерпретации с помощью контролируемых экспериментов. Нынешние подходы либо предоставляют интерпретируемые характеристики без возможности проверки их причинного влияния, либо позволяют редактировать модель без интерпретируемых контролов. Мы представляем унифицированную структуру, используя разреженные автокодировщики (SAE), которая заполняет этот разрыв, позволяя нам обнаружить человеко-интерпретируемые визуальные характеристики и точно их манипулировать для проверки гипотез о поведении модели. Применяя наш метод к передовым моделям зрения, мы раскрываем ключевые различия в семантических абстракциях, выученных моделями с различными целями предварительного обучения. Затем мы демонстрируем практическое использование нашей структуры через контролируемые вмешательства в рамках нескольких задач зрения. Мы показываем, что SAE могут надежно идентифицировать и манипулировать интерпретируемыми визуальными характеристиками без повторного обучения модели, предоставляя мощный инструмент для понимания и управления поведением модели зрения. Мы предоставляем код, демонстрации и модели на нашем веб-сайте проекта: https://osu-nlp-group.github.io/SAE-V.
Кэширование подсказок в больших языковых моделях (LLM) приводит к зависимым от данных временным вариациям: кэшированные подсказки обрабатываются быстрее, чем некэшированные. Эти временные различия представляют риск временных атак через боковые каналы. Например, если кеш общий для пользователей, злоумышленник может идентифицировать кэшированные подсказки по быстрым временам ответа API, чтобы получить информацию о подсказках других пользователей. Поскольку кэширование подсказок может вызвать утечку конфиденциальной информации, важна прозрачность в отношении политик кэширования у поставщиков API. В этом контексте мы разрабатываем и проводим статистические проверки для обнаружения кэширования подсказок у поставщиков реальных LLM API. Мы обнаруживаем глобальное общее использование кеша между пользователями в семи поставщиках API, включая OpenAI, что приводит к потенциальной утечке конфиденциальной информации о подсказках пользователей. Вариации времени из-за кэширования подсказок также могут привести к утечке информации о структуре модели. В частности, мы обнаруживаем доказательства того, что модель встраивания OpenAI является только декодером Transformer, что ранее не было общедоступной информацией.
Люди отличаются способностью повторно использовать предыдущие знания для решения новых задач и развития навыков в процессе решения проблем. Этот подход становится все более популярным в разработке автономных агентов, поскольку он позволяет создавать системы, способные самостоятельно эволюционировать в ответ на новые вызовы, подобно человеку. Однако существующие методы сталкиваются с ограниченной эффективностью обучения при расширении новых навыков и не полностью используют предыдущие знания для облегчения обучения новым задачам. В данной статье мы предлагаем Параметрическое Расширение и Композицию Навыков (PSEC) - новую концепцию, разработанную для итеративного развития возможностей агентов и эффективного решения новых вызовов путем поддержания управляемой библиотеки навыков. Эта библиотека может постепенно интегрировать навыковые примитивы в виде модулей низкоранговой адаптации (LoRA) "подключи и играй" при параметрически эффективной донастройке, облегчая эффективное и гибкое расширение навыков. Такая структура также позволяет прямое объединение навыков в пространстве параметров путем слияния модулей LoRA, кодирующих различные навыки, что позволяет эффективно программировать новые навыки, используя общую информацию между навыками. На основе этого мы предлагаем модуль, способный динамически активировать различные навыки для совместного решения новых задач. Обладая разнообразными применениями, включая многокритериальную композицию, изменение динамики и непрерывное изменение стратегии, результаты на наборах данных D4RL, DSRL и пакете управления DeepMind показывают, что PSEC обладает превосходной способностью использовать предыдущие знания для эффективного решения новых вызовов, а также расширять свою библиотеку навыков для развития возможностей. Веб-сайт проекта: https://ltlhuuu.github.io/PSEC/.
Большие языковые модели революционизировали обработку естественного языка через предварительное обучение без учителя на огромных наборах данных. Вдохновленные этим успехом, исследователи исследовали возможность адаптации этих методов к речи путем дискретизации непрерывного аудио на токены с использованием нейронных аудио кодеков. Однако существующие подходы сталкиваются с ограничениями, включая высокие битрейты, потерю либо семантической, либо акустической информации, и использование множественных кодовых книг при попытке уловить оба аспекта, что увеличивает архитектурную сложность для последующих задач. Для решения этих проблем мы представляем FocalCodec, эффективный кодек с низким битрейтом на основе фокусной модуляции, который использует одну двоичную кодовую книгу для сжатия речи между 0,16 и 0,65 кбит/с. FocalCodec обеспечивает конкурентоспособное качество в ресинтезе речи и конвертации голоса при более низких битрейтах, чем у текущего передового метода, эффективно обрабатывая многоязычную речь и шумные среды. Оценка на последующих задачах показывает, что FocalCodec успешно сохраняет достаточное количество семантической и акустической информации, а также хорошо подходит для генеративного моделирования. Демонстрационные образцы, код и контрольные точки доступны по адресу https://lucadellalib.github.io/focalcodec-web/.
Большие модели языка и модели языка-видео (LLM/VLM) все чаще используются в приложениях, связанных с безопасностью, однако их непрозрачное принятие решений затрудняет оценку рисков и надежности. Количественная оценка неопределенности (UQ) помогает оценить уверенность в прогнозе и позволяет воздерживаться, когда неопределенность высока. Конформальное предсказание (CP), ведущий метод UQ, обеспечивает статистические гарантии, но зависит от статических порогов, которые не адаптируются к сложности задачи и изменяющимся распределениям данных, что приводит к неоптимальным компромиссам в точности, охвате и информативности. Для решения этой проблемы мы предлагаем обучаемое конформальное воздерживание, интегрируя обучение с подкреплением (RL) с CP для оптимизации порогов воздерживания динамически. Обрабатывая пороги CP как адаптивные действия, наш подход балансирует несколько целей, минимизируя размер набора прогнозов, сохраняя надежное покрытие. Обширные оценки на различных бенчмарках LLM/VLM показывают, что наш метод превосходит наименее двусмысленные классификаторы (LAC) и адаптивные наборы прогнозов (APS), улучшая точность до 3,2%, увеличивая AUROC для обнаружения галлюцинаций на 22,19%, улучшая выборочную генерацию на основе неопределенности (AUARC) на 21,17% и снижая ошибку калибровки на 70-85%. Эти улучшения проявляются на различных моделях и наборах данных, при этом надежно достигается цель в 90% покрытия, утверждая наш подход как более эффективное и гибкое решение для надежного принятия решений в приложениях, связанных с безопасностью. Код доступен по ссылке: {https://github.com/sinatayebati/vlm-uncertainty}.