Ежедневно отобранные исследовательские статьи по ИИ с переводами
Недавние достижения в моделях диффузии значительно улучшили возможности генерации и редактирования видео. Однако многозернистое редактирование видео, которое включает в себя модификации на уровне класса, экземпляра и части, остается серьезным вызовом. Основные трудности в многозернистом редактировании включают семантическое несоответствие управления текстом к региону и связывание признаков в модели диффузии. Для решения этих трудностей мы представляем VideoGrain, подход с нулевой настройкой, который модулирует пространственно-временные механизмы внимания (перекрестные и собственные) для достижения тонкого контроля над содержимым видео. Мы улучшаем управление текстом к региону, усиливая внимание к каждому локальному подсказыванию к его соответствующему пространственно-разделенному региону, минимизируя взаимодействия с нерелевантными областями в перекрестном внимании. Кроме того, мы улучшаем разделение признаков путем увеличения осведомленности внутри региона и уменьшения межрегиональных помех в собственном внимании. Обширные эксперименты демонстрируют, что наш метод достигает передовой производительности в реальных сценариях. Наш код, данные и демонстрации доступны по адресу https://knightyxp.github.io/VideoGrain_project_page/
Длинный контекст является важной темой в обработке естественного языка (Natural Language Processing, NLP), пронизывая развитие архитектур NLP и предоставляя огромные возможности для моделей большого языкового объема (Large Language Models, LLMs), придавая LLMs потенциал к обучению на протяжении жизни, аналогичный человеческому. К сожалению, стремление к длинному контексту сопровождается многочисленными препятствиями. Тем не менее, длинный контекст остается основным конкурентным преимуществом для LLMs. За последние два года длина контекста LLMs достигла прорывного увеличения до миллионов токенов. Более того, исследования по LLMs с длинным контекстом расширились от экстраполяции длины до всестороннего фокуса на архитектуре, инфраструктуре, обучении и технологиях оценки. Вдохновленные симфонической поэмой "Так говорил Заратустра", мы проводим аналогию между путешествием по расширению контекста LLM и попытками людей преодолеть свою смертность. В этом обзоре мы проиллюстрируем, как LLM борется между огромной необходимостью в более длинном контексте и равной необходимостью принять тот факт, что он в конечном итоге ограничен. Для достижения этого мы представим общую картину жизненного цикла LLM с длинным контекстом с четырех точек зрения: архитектура, инфраструктура, обучение и оценка, демонстрируя полный спектр технологий длинного контекста. В конце этого обзора мы представим 10 неотвеченных вопросов, с которыми в настоящее время сталкиваются LLM с длинным контекстом. Мы надеемся, что этот обзор может служить систематическим введением в исследования по LLM с длинным контекстом.
Мы представляем Slam - рецепт для обучения высококачественных моделей речевого языка (SLM) на одном академическом GPU за 24 часа. Мы достигаем этого через эмпирический анализ инициализации модели и архитектуры, синтетических данных для обучения, оптимизации предпочтений с синтетическими данными и настройки всех остальных компонентов. Мы эмпирически демонстрируем, что этот метод обучения также хорошо масштабируется с увеличением вычислительных ресурсов, достигая результатов, сопоставимых с ведущими SLM при доле вычислительных затрат. Мы надеемся, что эти исследования сделают обучение и исследования SLM более доступными. В контексте законов масштабирования SLM наши результаты значительно превосходят предсказанную оптимальную производительность вычислений, что дает оптимистичное представление о возможности применения SLM. См. код, данные, модели, образцы по ссылке - https://pages.cs.huji.ac.il/adiyoss-lab/slamming.
Наша основная цель здесь - создать хорошую обобщенную модель восприятия, способную решать несколько задач в пределах выделенных вычислительных ресурсов и обучающих данных. Для достижения этой цели мы прибегаем к моделям диффузии текста в изображение, предварительно обученным на миллиардах изображений. Наши исчерпывающие метрики оценки демонстрируют, что DICEPTION успешно справляется с несколькими задачами восприятия, достигая производительности на уровне передовых моделей. Мы достигаем результатов на уровне SAM-vit-h, используя всего лишь 0,06% их данных (например, 600 тыс. против 1 млрд. пиксельно размеченных изображений). Вдохновленный работой Ванга и др., DICEPTION формулирует результаты различных задач восприятия с использованием цветового кодирования; и мы показываем, что стратегия присвоения случайных цветов различным экземплярам является очень эффективной как для сегментации объектов, так и для семантической сегментации. Объединение различных задач восприятия как условной генерации изображения позволяет нам полностью использовать предварительно обученные модели текста в изображение. Таким образом, DICEPTION может быть эффективно обучен за счет порядков меньших затрат по сравнению с традиционными моделями, обученными с нуля. При адаптации нашей модели к другим задачам, требуется только тонкая настройка на столь же небольшом количестве, как 50 изображений и 1% ее параметров. DICEPTION предоставляет ценные идеи и более перспективное решение для обобщенных моделей визуального восприятия.
Недавние достижения в аудио-токенизации значительно улучшили интеграцию аудио-возможностей в большие языковые модели (LLM). Однако понимание и генерация звука часто рассматриваются как отдельные задачи, затрудняя развитие по-настоящему объединенных аудио-языковых моделей. В то время как настройка инструкций продемонстрировала замечательный успех в улучшении обобщения и обучения без примеров в тексте и зрении, ее применение к аудио остается в значительной степени неисследованным. Одним из основных препятствий является отсутствие комплексных наборов данных, объединяющих понимание и генерацию звука. Для решения этой проблемы мы представляем Audio-FLAN, крупномасштабный набор данных для настройки инструкций, охватывающий 80 разнообразных задач в областях речи, музыки и звука, с более чем 100 миллионами экземпляров. Audio-FLAN заложит основу для объединенных аудио-языковых моделей, которые могут безупречно обрабатывать как задачи понимания (например, транскрипция, понимание), так и генерации (например, речь, музыка, звук) в широком диапазоне аудио-областей в режиме обучения без примеров. Набор данных Audio-FLAN доступен на платформах HuggingFace и GitHub и будет непрерывно обновляться.
Хотя метод адаптации низкого ранга (Low-Rank Adaptation, LoRA) обеспечивает эффективную настройку параметров для больших языковых моделей (Large Language Models, LLM), его производительность часто не дотягивает до полной настройки (Full Fine-Tuning, Full FT). Нынешние методы оптимизации LoRA начинают с инициализации статическими подмножествами сингулярного разложения (Singular Value Decomposition, SVD), что приводит к неоптимальному использованию предварительных знаний. Другим путем улучшения LoRA является внедрение архитектуры смеси экспертов (Mixture-of-Experts, MoE). Однако недопустимое выравнивание весов и сложная динамика градиентов затрудняют применение SVD перед архитектурой LoRA MoE. Для устранения этих проблем мы предлагаем Great LoRA Mixture-of-Expert (GOAT), фреймворк, который (1) адаптивно интегрирует соответствующие априорные знания с использованием структурированной по SVD MoE и (2) выравнивает оптимизацию с полностью настроенной MoE путем вывода теоретического коэффициента масштабирования. Мы демонстрируем, что правильное масштабирование, без изменения архитектуры или алгоритмов обучения, повышает эффективность и производительность LoRA MoE. Эксперименты на 25 наборах данных, включая понимание естественного языка, здравый смысл, классификацию изображений и генерацию естественного языка, показывают ведущую производительность GOAT, сокращая разрыв с Full FT.
Методы постоянства цвета часто испытывают трудности с обобщением на различные камерные сенсоры из-за изменяющейся спектральной чувствительности. Мы представляем GCC, который использует модели диффузии для восстановления цветовых шахматных досок на изображениях для оценки освещения. Наши ключевые инновации включают (1) одношаговый детерминированный подход к восстановлению цветовых шахматных досок, отражающих освещение сцены, (2) технику лапласианского разложения, сохраняющую структуру доски, позволяя адаптацию цвета в зависимости от освещения, и (3) стратегию аугментации данных на основе маски для обработки неточных аннотаций цветовых шахматных досок. GCC демонстрирует превосходную устойчивость в сценариях между камерами, достигая уровня ошибок в худшем 25% на уровне 5.15° и 4.32° в двусторонних оценках. Эти результаты подчеркивают стабильность и способность к обобщению нашего метода на различные характеристики камер без необходимости специального обучения для каждого сенсора, делая его универсальным решением для прикладных задач в реальном мире.
Критическая способность крупных языковых моделей (LLM) является важной для способностей рассуждения, которые могут предоставить необходимые рекомендации (например, подробный анализ и конструктивную обратную связь). Поэтому вопрос оценки критической способности LLM привлекает большое внимание, и было предложено несколько критических бенчмарков. Однако существующие критические бенчмарки обычно имеют следующие ограничения: (1) сосредоточены на разнообразных задачах рассуждения в общих областях и недостаточно оценивают задачи с кодом (например, охватывают только задачу генерации кода), где сложность запросов относительно невелика (например, запросы кода CriticBench взяты из Humaneval и MBPP). (2) Отсутствие всесторонней оценки с разных точек зрения. Для преодоления этих ограничений мы представляем всесторонний кодовый критический бенчмарк для LLM под названием CodeCriticBench. Конкретно, наш CodeCriticBench включает две основные задачи с кодом (т.е. генерацию кода и вопросы-ответы по коду) с разной сложностью. Кроме того, протоколы оценки включают базовую оценку критики и продвинутую оценку критики для различных характеристик, где для продвинутых настроек хорошо разработаны детализированные списки оценки. Наконец, мы проводим обширные экспериментальные результаты существующих LLM, которые показывают эффективность CodeCriticBench.
Масштабирование вычислений на этапе предварительного обучения доказало свою эффективность для достижения мультиязычности, но справедливо ли это и для масштабирования на этапе тестирования? В данной работе мы представляем MCLM - мультиязычный математический бенчмарк, включающий задачи уровня соревнований на 55 языках. Мы тестируем три метода масштабирования на этапе тестирования - моделирование вознаграждения за результат (ORM), моделирование процесса вознаграждения (ORM) и принуждение к бюджету (BF) - как на Qwen2.5-1.5B Math, так и на MR1-1.5B, мультиязычной LLM, на которой мы обучались для расширенного рассуждения. Наши эксперименты показывают, что использование Qwen2.5-1.5B Math с ORM достигает оценки 35.8 на MCLM, в то время как BF на MR1-1.5B достигает 35.2. Хотя "мыслящие LLM" недавно привлекли значительное внимание, мы обнаружили, что их производительность сравнима с традиционными методами масштабирования, такими как выбор лучшего из N, когда они ограничены сходными уровнями операций с плавающей запятой вывода. Более того, хотя BF приводит к улучшению на 20 пунктов на английском AIME, он обеспечивает лишь средний прирост в 1.94 пункта по другим языкам - что является типичным для других методов масштабирования на этапе тестирования, которые мы изучали, подчеркивая, что масштабирование на этапе тестирования может не так эффективно обобщаться на мультиязычные задачи. Для поощрения дальнейших исследований мы публикуем MCLM, MR1-1.5B и результаты оценки.
Недавние достижения в области генерации видео позволили моделям синтезировать видеоролики высокого качества продолжительностью в минуту. Однако создание даже более длинных видео с сохранением временной согласованности остается значительной проблемой, и существующие методы экстраполяции длины приводят к временным повторам или замедлению движения. В данной работе мы систематически анализируем роль частотных компонентов в позиционных вложениях и выявляем внутреннюю частоту, которая в основном управляет поведением экстраполяции. Исходя из этого понимания, мы предлагаем RIFLEx, минимальный, но эффективный подход, который снижает внутреннюю частоту для подавления повторов, сохраняя при этом согласованность движения, без необходимости в дополнительных модификациях. RIFLEx предлагает истинно бесплатный обед - достигая высококачественной экстраполяции в 2 раза на передовых видео-трансформерах диффузии в полностью обучающемся режиме. Более того, он повышает качество и позволяет экстраполировать в 3 раза с минимальной донастройкой без длинных видеороликов. Страница проекта и коды: https://riflex-video.github.io/{https://riflex-video.github.io/.}
Эта статья всесторонне оценивает несколько недавно предложенных оптимизаторов для тренировки с использованием 4-битной точности, выявляя, что низкая точность битов усиливает чувствительность к скоростям обучения и часто вызывает нестабильность норм градиента, что приводит к расходимости при более высоких скоростях обучения. Среди них SPAM, недавно представленный оптимизатор с функцией сброса импульса и обрезки градиента, достигает лучшей производительности на различных уровнях битов, но испытывает затруднения с стабилизацией норм градиента, требуя тщательной настройки скорости обучения. Для преодоления этих ограничений мы предлагаем Stable-SPAM, который включает улучшенные техники нормализации и обрезки градиента. В частности, Stable-SPAM (1) адаптивно обновляет порог обрезки для высоких градиентов, отслеживая их исторические максимумы; (2) нормализует весь градиентный массив на основе его статистики исторической l_2-нормы; и (3) наследует сброс импульса от SPAM для периодического сброса первого и второго моментов Adam, смягчая накопление высоких градиентов. Обширные эксперименты показывают, что Stable-SPAM эффективно стабилизирует нормы градиента при обучении с использованием 4-битной точности, обеспечивая превосходную производительность по сравнению с Adam и SPAM. Заметно, что наша модель LLaMA-1B с 4-битной точностью, обученная с использованием Stable-SPAM, превосходит модель LLaMA-1B с BF16, обученную с помощью Adam, на до 2 плутония. Более того, когда обе модели обучаются с использованием 4-битной точности, Stable-SPAM достигает той же потери, что и Adam, требуя при этом всего примерно половину шагов обучения. Код доступен по адресу https://github.com/TianjinYellow/StableSPAM.git.
Существующие мультимодальные модели языка большого масштаба (MLLM) в основном обучаются и тестируются на согласованных визуально-текстовых входах, оставляя открытым вопрос о том, способны ли они справиться с несоответствиями в контенте реального мира, богатом макетами. Для преодоления этого разрыва мы предлагаем бенчмарк Мультимодального Рассуждения о Несоответствиях (MMIR) для оценки способности MLLM обнаруживать и рассуждать о семантических расхождениях в артефактах, таких как веб-страницы, презентационные слайды и плакаты. MMIR включает 534 сложных образца, каждый из которых содержит синтетически внедренные ошибки в пять категорий, требующих серьезного рассуждения: Фактическое Противоречие, Неверное Присвоение Личности, Контекстное Несоответствие, Количественное Расхождение и Временное/Пространственное Несогласование. Мы оценили шесть современных моделей MLLM, показав, что модели с выделенными возможностями мультимодального рассуждения, такие как o1, значительно превосходят своих аналогов, в то время как модели с открытым исходным кодом остаются особенно уязвимыми к ошибкам несоответствия. Детальные анализы ошибок также показывают, что модели отлично справляются с обнаружением несоответствий, ограниченных одной модальностью, особенно в тексте, но испытывают трудности с межмодальными конфликтами и сложными макетами. Эксперименты показывают, что подходы с одной модальностью, включая методы Цепочка Мыслей (CoT) и Множество Меток (SoM), приносят незначительные улучшения, выявляя ключевое узкое место в межмодальном рассуждении. Наши результаты подчеркивают необходимость продвинутого мультимодального рассуждения и указывают на будущие исследования в области мультимодального несоответствия.
Решения о выпуске генеративного искусственного интеллекта определяют, будут ли компоненты системы доступны, однако выпуск не решает многих других элементов, которые изменяют способы взаимодействия пользователей и заинтересованных сторон с системой. Помимо выпуска, доступ к компонентам системы информирует о потенциальных рисках и выгодах. Доступ относится к практическим потребностям, инфраструктурным, техническим и социальным, необходимым для использования доступных компонентов каким-либо образом. Мы деконструируем доступ по трем осям: ресурсы, техническая применимость и полезность. В каждой категории набор переменных на каждый компонент системы уточняет компромиссы. Например, для ресурсов требуется доступ к вычислительной инфраструктуре для обслуживания весов модели. Мы также сравниваем доступность четырех высокопроизводительных языковых моделей, две с открытыми весами и две с закрытыми весами, показывая сходные соображения для всех, основанные вместо этого на переменных доступа. Переменные доступа заложены в основу возможности масштабирования или увеличения доступа к пользователям; мы исследуем масштаб доступа и то, как масштаб влияет на способность управлять и вмешиваться в риски. Этот фреймворк лучше охватывает ландшафт и компромиссы между рисками и выгодами выпусков системы для информирования решений о выпуске системы, исследований и политики.
Быстрый рост использования мобильных устройств требует улучшенной автоматизации для беспрепятственного управления задачами. Однако многие фреймворки, основанные на искусственном интеллекте, испытывают трудности из-за недостаточных операционных знаний. Ручное написание знаний помогает, но требует много труда и неэффективно. Для решения этих проблем мы представляем Mobile-Agent-V, фреймворк, который использует видео-руководство для предоставления богатых и экономически эффективных операционных знаний для мобильной автоматизации. Mobile-Agent-V улучшает возможности выполнения задач, используя видео входы без необходимости специализированной выборки или предварительной обработки. Mobile-Agent-V интегрирует стратегию скользящего окна и включает видеоагента и агента глубокого отражения, чтобы гарантировать соответствие действий инструкциям пользователя. Через этот инновационный подход пользователи могут записывать процессы задач с руководством, что позволяет системе автономно изучать и эффективно выполнять задачи. Экспериментальные результаты показывают, что Mobile-Agent-V достигает улучшения производительности на 30% по сравнению с существующими фреймворками.
Решение сложных задач манипулирования роботов с длительным горизонтом требует высокоуровневых планировочных возможностей, способности рассуждать о физическом мире и реактивного выбора соответствующих моторных навыков. Модели видения-языка (VLM), предварительно обученные на данных из Интернета, в принципе могут предложить рамочное решение для решения таких проблем. Однако в их текущей форме VLM лишены как тонкого понимания сложной физики, необходимой для робототехнического манипулирования, так и способности рассуждать на длительных горизонтах для решения проблем накапливания ошибок. В данной статье мы представляем новую рамочную вычислительную модель для тестирования, которая улучшает возможности физического рассуждения VLM для многоэтапных задач манипулирования. В центре нашего подхода лежит итеративное улучшение предварительно обученного VLM с механизмом "отражения" - он использует генеративную модель для воображения будущих состояний мира, использует эти предсказания для направления выбора действий и критически отражается на потенциальных подоптимальностях для уточнения своего рассуждения. Экспериментальные результаты демонстрируют, что наш метод значительно превосходит несколько современных коммерческих VLM, а также другие подходы послеобучения, такие как Монте-Карло деревоискатель (MCTS). Видеоролики доступны на https://reflect-vlm.github.io.
Мы представляем X-Dancer, новый конвейер анимации изображений под музыку с нулевой настройкой, который создает разнообразные и долгосрочные реалистичные видеоролики человеческого танца из одного статического изображения. В его основе мы представляем единый трансформерно-диффузионный каркас, включающий авторегрессионную модель трансформера, которая синтезирует расширенные и синхронизированные с музыкой последовательности токенов для 2D поз тела, головы и рук, которые затем направляют модель диффузии для создания согласованных и реалистичных кадров танцев. В отличие от традиционных методов, в основном генерирующих движение человека в 3D, X-Dancer решает ограничения данных и увеличивает масштабируемость, моделируя широкий спектр 2D танцевальных движений, захватывая их тонкую согласованность с музыкальными ритмами через легко доступные монокулярные видеоролики. Для достижения этого мы сначала создаем пространственно композиционное представление токенов из 2D меток поз человека, связанных с уверенностями ключевых точек, кодируя как крупные артикулированные движения тела (например, верхняя и нижняя части тела), так и мелкозернистые движения (например, голова и руки). Затем мы разрабатываем модель трансформера от музыки к движению, которая авторегрессивно генерирует последовательности токенов поз танца, согласованных с музыкой, интегрируя глобальное внимание как к музыкальному стилю, так и к контексту предыдущего движения. Наконец, мы используем диффузионную основу для анимации эталонного изображения с помощью синтезированных токенов поз через AdaIN, формируя полностью дифференцируемый каркас от начала до конца. Экспериментальные результаты показывают, что X-Dancer способен производить как разнообразные, так и характеризованные видеоролики танца, значительно превосходя современные методы по разнообразию, выразительности и реализму. Код и модель будут доступны для исследовательских целей.
Данный документ разрабатывает агентский каркас, который использует большие языковые модели (LLM) для автоматизации создания убедительного и обоснованного маркетингового контента, используя описания недвижимости в качестве нашей основной области применения. Наш метод разработан для согласования созданного контента с предпочтениями пользователей, выделяя полезные фактические атрибуты. Этот агент состоит из трех ключевых модулей: (1) Модуль Оснований, имитирующий экспертное человеческое поведение для прогнозирования маркетинговых особенностей; (2) Модуль Персонализации, согласующий контент с предпочтениями пользователя; (3) Модуль Маркетинга, обеспечивающий фактическую точность и включение локализованных особенностей. Мы проводим систематические эксперименты с участием людей в области маркетинга недвижимости, с участием фокусной группы потенциальных покупателей домов. Результаты показывают, что описания маркетинга, созданные нашим подходом, предпочтительнее, чем те, которые написаны экспертами-людьми с большим отрывом. Наши результаты предполагают перспективный агентский каркас на основе LLM для автоматизации масштабного целевого маркетинга, обеспечивая ответственное создание, используя только факты.
Поскольку ландшафт искусственного интеллекта с открытым исходным кодом продолжает расширяться - с развитием моделей, значительными инвестициями и интересом пользователей - становится все более важным предсказать, какие модели в конечном итоге будут стимулировать инновации и формировать экосистемы искусственного интеллекта. Основываясь на параллелях с динамикой цитирования в научной литературе, мы предлагаем фреймворк для количественной оценки того, как развивается влияние модели с открытым исходным кодом. Конкретно, мы адаптируем модель, представленную Вангом и др. для научных цитат, используя три ключевых параметра - немедленность, долговечность и относительную приспособленность - для отслеживания накопительного числа тонко настроенных моделей модели с открытым исходным кодом. Наши результаты показывают, что этот подход в стиле цитирования может эффективно отражать разнообразные траектории принятия моделей с открытым исходным кодом, причем большинство моделей хорошо соответствуют, а выбросы указывают на уникальные шаблоны или резкие скачки в использовании.
Иерархическая организация является фундаментальной для биологических систем и человеческих обществ, однако системы искусственного интеллекта часто полагаются на монолитные архитектуры, которые ограничивают адаптивность и масштабируемость. Существующие подходы к иерархическому обучению с подкреплением (HRL) обычно ограничивают иерархии двумя уровнями или требуют централизованного обучения, что снижает их практическую применимость. Мы представляем TAME Agent Framework (TAG), фреймворк для построения полностью децентрализованных иерархических мультиагентных систем. TAG позволяет создавать иерархии произвольной глубины с помощью нового концепта LevelEnv, который абстрагирует каждый уровень иерархии как окружение для агентов на более высоких уровнях. Этот подход стандартизирует поток информации между уровнями, сохраняя слабую связь и обеспечивая безшовную интеграцию различных типов агентов. Мы демонстрируем эффективность TAG, реализуя иерархические архитектуры, объединяющие различных агентов RL на нескольких уровнях и достигая улучшенной производительности по сравнению с классическими базовыми моделями мультиагентного RL на стандартных бенчмарках. Наши результаты показывают, что децентрализованная иерархическая организация улучшает как скорость обучения, так и конечную производительность, позиционируя TAG как многообещающее направление для масштабируемых мультиагентных систем.
Временное рассуждение является фундаментальным для человеческого познания и имеет важное значение для различных прикладных областей. В то время как недавние достижения в области больших языковых моделей продемонстрировали многообещающие возможности во временном рассуждении, существующие бенчмарки в основном опираются на правила, лишены контекстуальной глубины и охватывают ограниченный набор временных сущностей. Для преодоления этих ограничений мы представляем Китайское Временное Рассуждение (CTM), бенчмарк, разработанный для оценки больших языковых моделей во временном рассуждении в обширной области китайской династической хронологии. CTM акцентирует взаимосвязи между сущностями, парное временное выравнивание и контекстуализированное и культурно обусловленное рассуждение, предоставляя комплексную оценку. Обширные экспериментальные результаты раскрывают вызовы, предъявляемые CTM, и выделяют потенциальные пути улучшения.
Большие языковые модели (LLM) продемонстрировали замечательные улучшения в рассуждениях, и многие существующие бенчмарки были решены моделями, такими как o1 и o3, полностью или частично. Однако большинство этих бенчмарков акцентируются на дедуктивных рассуждениях, включая математические и программные задачи, в которых правила, такие как математические аксиомы или синтаксис программирования, четко определены, на основе которых LLM могут планировать и применять эти правила для получения решения. В отличие от этого, индуктивные рассуждения, где из наблюдаемых данных делаются выводы о базовых правилах, остаются менее исследованными. Такие индуктивные процессы лежат в основе научных открытий, поскольку они позволяют исследователям извлекать общие принципы из эмпирических наблюдений. Для оценки наличия у LLM этой способности мы представляем InductionBench, новый бенчмарк, разработанный для оценки индуктивной способности рассуждения у LLM. Наши экспериментальные результаты показывают, что даже самые передовые доступные модели испытывают трудности с освоением простейших классов сложности в подрегулярной иерархии функций, подчеркивая значительные недостатки в индуктивной способности рассуждения текущих LLM. Код и данные доступны на https://github.com/Wenyueh/inductive_reasoning_benchmark.
Большие языковые модели (LLM) стали мощным инструментом для решения современных задач и обеспечения практических применений. Однако их вычислительные затраты остаются значительным барьером для широкого принятия. Квантование выделяется как многообещающая техника для демократизации доступа и обеспечения развертывания на устройствах с ограниченными ресурсами. Несмотря на эти достижения, безопасность и надежность квантованных моделей остаются малоизученными, поскольку предыдущие исследования часто игнорируют современные архитектуры и полагаются на чрезмерно упрощенные бенчмарки и оценки. Для заполнения этого пробела мы представляем OpenSafetyMini, новый набор данных по безопасности, разработанный для более точного различения моделей. Мы оцениваем 4 передовые техники квантования на моделях LLaMA и Mistral с использованием 4 бенчмарков, включая оценки человека. Наши результаты показывают, что оптимальный метод квантования варьируется для 4-битной точности, в то время как техники векторного квантования обеспечивают лучшую производительность по безопасности и надежности на 2-битной точности, что является основой для будущих исследований.
Данный отчет представляет собой комплексную структуру для создания высококачественных 3D форм и текстур из разнообразных входных данных, включая одиночные изображения, многоплоскостные изображения и текстовые описания. Структура состоит из генерации 3D формы и генерации текстуры. (1). Пайплайн генерации 3D формы использует Вариационный автоэнкодер (VAE) для кодирования неявных 3D геометрий в латентное пространство и диффузионную сеть для генерации латентов, условных по входным данным, с модификациями для увеличения емкости модели. Также исследуется альтернативный подход к генерации сетки, созданной художником (AM), что приводит к многообещающим результатам для более простых геометрий. (2). Генерация текстуры включает многоэтапный процесс, начиная с генерации фронтальных изображений, за которыми следует генерация многоплоскостных изображений, преобразование RGB в PBR текстуру и улучшение текстуры многоплоскостного изображения высокого разрешения. В каждом этапе используется планировщик согласованности, чтобы обеспечить пиксельную согласованность между многоплоскостными текстурами во время вывода, гарантируя бесшовную интеграцию. Данный пайплайн демонстрирует эффективную обработку разнообразных форматов входных данных, используя передовые нейронные архитектуры и новые методологии для создания высококачественного 3D контента. В отчете подробно описана архитектура системы, экспериментальные результаты и потенциальные направления для улучшения и расширения структуры. Исходный код и предварительно обученные веса доступны по ссылке: https://github.com/Tencent/Tencent-XR-3DGen.
Две распространенные стратегии борьбы с ростом дезинформации в социальных сетях - это (i) факт-чекинг профессиональными организациями и (ii) модерация сообществом пользователями платформы. Изменения в политике Twitter/X и, более недавно, Meta, сигнализируют о переходе от партнерств с факт-чекинговыми организациями к увеличенной зависимости от сообщества, основанного на принципе «толпы». Однако степень и характер взаимосвязей между факт-чекингом и полезными заметками сообщества остаются неясными. Для решения этих вопросов мы используем языковые модели для аннотации большого корпуса заметок сообщества Twitter/X атрибутами, такими как тема, упомянутые источники и то, опровергают ли они утверждения, связанные с более широкими навязчивыми мифами. Наш анализ показывает, что сообщества цитируют источники факт-чекинга вплоть до пяти раз чаще, чем ранее сообщалось. Факт-чекинг особенно важен для заметок о публикациях, связанных с более широкими повествованиями, которые вдвое чаще упоминают источники факт-чекинга по сравнению с другими источниками. В заключение, наши результаты показывают, что успешная модерация сообщества тесно связана с профессиональным факт-чекингом.
Когда человек запрашивает от LLM завершение задачи по кодированию, используя функционал из большого репозитория кода, как мы можем предоставить контекст из репозитория LLM? Один из подходов - добавить весь репозиторий в окно контекста LLM. Однако большинство задач включают лишь долю символов из репозитория, более длинные контексты вредят способностям рассуждения LLM, а окна контекста не безграничны. В качестве альтернативы, мы могли бы эмулировать способность человека навигировать по большому репозиторию, выбирать нужный функционал и формировать план для решения задачи. Мы предлагаем MutaGReP (Поиск планов на основе мутаций в наземном репозитории), подход к поиску планов, декомпозирующих запрос пользователя на естественноязычные шаги, опираясь на кодовую базу. MutaGReP выполняет нейронный поиск дерева в пространстве планов, исследуя путем мутации планов и используя извлекатель символов для опоры. На сложном бенчмарке LongCodeArena, наши планы используют менее 5% из 128K окна контекста для GPT-4o, но конкурируют с производительностью кодирования GPT-4o с окном контекста, заполненным репозиторием. Планы, созданные MutaGReP, позволяют Qwen 2.5 Coder 32B и 72B соответствовать производительности GPT-4o с полным контекстом репозитория и обеспечивают прогресс в самых сложных задачах LongCodeArena. Страница проекта: zaidkhan.me/MutaGReP
Поскольку искусственные интеллектом чат-боты становятся все более распространенными, голосовое взаимодействие представляет собой убедительный способ обеспечить быструю, высокоскоростную коммуникацию как для семантических, так и для социальных сигналов. Это побудило исследования в области Больших Аудиомоделей (Large Audio Models, LAMs) для создания голосовых пользовательских интерфейсов. Однако для успешного развития LAM необходимо четкое понимание потребностей и предпочтений пользователей для установления надежных метрик прогресса. Данное исследование решает эти проблемы, предлагая интерактивный подход к оценке LAM и собрав 7 500 взаимодействий с LAM от 484 участников. Путем тематического моделирования пользовательских запросов мы выявляем основные сценарии использования аудиоинтерфейсов. Затем мы анализируем предпочтения пользователей и качественную обратную связь, чтобы определить, какие модели наилучшим образом соответствуют потребностям пользователей. Наконец, мы оцениваем, насколько статические бенчмарки предсказывают интерактивную производительность - наш анализ показывает, что ни один отдельный бенчмарк не сильно коррелирует с интерактивными результатами (tau ≤ 0.33 для всех бенчмарков). Хотя комбинация нескольких грубых признаков дает умеренную предсказательную силу (R^2=0.30), лишь два из двадцати наборов данных по ответам на устные вопросы и предсказанию возраста показывают значительно положительные корреляции. Это указывает на явную необходимость разработки оценок LAM, которые лучше коррелируют с предпочтениями пользователей.
Оценка качества является повсеместной в машинном переводе, как для оценки, так и для генерации. К сожалению, модели оценки качества часто непрозрачны и вычислительно затратны, что делает их непрактичными для включения в масштабные конвейеры. В данной работе мы решаем две связанные задачи: (1) снижение стоимости оценки качества в масштабе и (2) разработка недорогого метода оценки неопределенности для оценки качества. Для решения последней задачи мы представляем модель оценки качества Instant Confidence COMET, учитывающую неопределенность, которая соответствует производительности предыдущих подходов при доле их затрат. Мы расширяем это до Early-Exit COMET, модели оценки качества, способной вычислять оценки качества и связанные уверенности уже на ранних слоях модели, что позволяет нам досрочно завершать вычисления и снижать затраты на оценку. Мы также применяем нашу модель к переупорядочиванию машинного перевода. Мы комбинируем Early-Exit COMET с алгоритмом бандита верхней доверительной границы для поиска лучшего кандидата из большого пула без необходимости запуска полной модели оценки на всех кандидатах. В обоих случаях (оценка и переупорядочивание) наши методы снижают требуемые вычисления на 50% при очень незначительном ухудшении производительности.
Извлечение изображений из того же местоположения, что и заданный запрос, является важным компонентом множества задач компьютерного зрения, таких как Визуальное распознавание мест, Поиск ориентиров, Визуальная локализация, 3D-реконструкция и SLAM. Однако существующие решения созданы специально для работы с одной из этих задач и известно, что они терпят неудачу, когда требования немного меняются или когда они сталкиваются с данными вне распределения. В данной статье мы объединяем разнообразные существующие методы, техники обучения и наборы данных для обучения модели извлечения, названной MegaLoc, которая демонстрирует хорошую производительность на нескольких задачах. Мы обнаружили, что MegaLoc (1) достигает современного уровня на большом количестве наборов данных по визуальному распознаванию мест, (2) показывает впечатляющие результаты на распространенных наборах данных по поиску ориентиров и (3) устанавливает новый современный уровень для визуальной локализации на наборах данных LaMAR, где мы просто заменили метод извлечения в существующем пайплайне локализации. Код для MegaLoc доступен по ссылке https://github.com/gmberton/MegaLoc
Ответ на сложные вопросы с длинным контекстом остается одним из основных вызовов для больших языковых моделей (LLM), поскольку это требует эффективной уточнения вопросов и извлечения контекста. Мы предлагаем Agentic Long-Context Understanding (AgenticLU), фреймворк, разработанный для улучшения понимания таких запросов LLM путем интеграции целевого самоуточнения с контекстуальной привязкой в рамках агентного рабочего процесса. В основе AgenticLU лежит Chain-of-Clarifications (CoC), где модели улучшают свое понимание через самостоятельно сгенерированные уточняющие вопросы и соответствующие контекстуальные привязки. Масштабируя вывод как поиск по дереву, где каждый узел представляет собой шаг CoC, мы достигаем 97,8% воспроизведения ответа на NarrativeQA при глубине поиска до трех и коэффициенте ветвления восемь. Для амортизации высокой стоимости этого процесса поиска во время обучения мы используем пары предпочтений для каждого шага, полученные рабочим процессом CoC, и выполняем двухэтапное дообучение модели: (1) надзорное дообучение для изучения эффективных стратегий декомпозиции и (2) прямая оптимизация предпочтений для улучшения качества рассуждений. Это позволяет моделям AgenticLU генерировать уточнения и извлекать соответствующий контекст эффективно и эффективно за один проход вывода. Обширные эксперименты по семи задачам с длинным контекстом показывают, что AgenticLU значительно превосходит современные методы подсказок и специализированные LLM с длинным контекстом, достигая надежного многопереходного рассуждения и поддерживая постоянное качество работы по мере увеличения длины контекста.
Мы представляем MONSTER - MONash Scalable Time Series Evaluation Repository - коллекцию больших наборов данных для классификации временных рядов. Область классификации временных рядов получила пользу от общих стандартов, установленных репозиториями классификации временных рядов UCR и UEA. Однако наборы данных в этих стандартах небольшие, с медианными размерами соответственно 217 и 255 примеров. В результате они предпочитают узкое подпространство моделей, оптимизированных для достижения низкой ошибки классификации на разнообразных небольших наборах данных, то есть моделей, которые минимизируют дисперсию и уделяют мало внимания вопросам масштабируемости. Наша цель - разнообразить область путем введения стандартов с использованием больших наборов данных. Мы считаем, что есть огромный потенциал для нового прогресса в области, занимаясь теоретическими и практическими вызовами эффективного обучения на больших объемах данных.
Пандемия COVID-19 нагрузила ресурсы здравоохранения и вызвала обсуждение о том, как машинное обучение может облегчить бремя врачей и способствовать диагностике. Рентгенографии грудной клетки (CXR) используются для диагностики COVID-19, но немногие исследования предсказывают тяжесть состояния пациента по CXR. В данном исследовании мы создаем большой набор данных о тяжести COVID, объединяя три источника, и исследуем эффективность трансферного обучения с использованием моделей, предобученных на ImageNet и CXR, а также видовых трансформеров (ViTs) как в задачах регрессии тяжести, так и классификации. Предобученная модель DenseNet161 показала лучшие результаты в задаче предсказания тяжести по трем классам, достигнув общей точности 80% и 77,3%, 83,9% и 70% для легких, умеренных и тяжелых случаев соответственно. ViT продемонстрировал лучшие результаты в регрессии, средняя абсолютная ошибка составила 0,5676 по сравнению с предсказанными радиологами баллами тяжести. Исходный код проекта доступен публично.
Быстрое развитие моделей искусственного интеллекта, создающих изображения (AGI), представляет существенные вызовы при оценке их качества, что требует учета нескольких измерений, таких как качество восприятия, оперативная соответственность и подлинность. Для решения этих проблем мы предлагаем M3-AGIQA, комплексную систему оценки качества AGI, которая является мультимодальной, многокруговой и многоплановой. Наш подход использует возможности мультимодальных больших языковых моделей (MLLMs) в качестве совместных кодировщиков текста и изображения и извлекает передовые возможности подписывания изображений из онлайн MLLMs в локальную модель с помощью тонкой настройки с использованием метода низкоранговой адаптации (LoRA). Система включает структурированный многокруговой механизм оценки, в рамках которого генерируются промежуточные описания изображений для предоставления более глубокого понимания качества, соответствия и подлинности. Для согласования предсказаний с восприятием человека включен предсказатель, построенный на основе xLSTM и регрессионной головы, для обработки последовательных логитов и предсказания средних оценок мнения (MOSs). Обширные эксперименты, проведенные на нескольких эталонных наборах данных, показывают, что M3-AGIQA достигает передовых показателей производительности, эффективно улавливая тонкие аспекты качества AGI. Кроме того, проверка на перекрестных наборах данных подтверждает его высокую обобщаемость. Код доступен по адресу https://github.com/strawhatboy/M3-AGIQA.
Коричневый шар - это случайное метрическое пространство, гомеоморфное двумерной сфере, которое возникает как универсальный предельный масштаб многих типов случайных плоских карт. Прямое построение коричневого шара происходит через непрерывный аналог биекции Кори-Воклен-Шеффера (CVS). Биекция CVS отображает помеченные деревья на плоские карты, а непрерывная версия отображает непрерывное случайное дерево Олда с коричневыми метками (коричневая змея) на коричневый шар. В данной работе мы описываем обратное преобразование непрерывной биекции CVS, конструируя коричневую змею как измеримую функцию коричневого шара. Особое внимание требуется для работы с ориентацией коричневого шара.