Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет Phi-4
Phi-4 Technical Report

Dec 12

ByMarah Abdin, Jyoti Aneja, Harkirat Behl, Sébastien Bubeck, Ronen Eldan, Suriya Gunasekar, Michael Harrison, Russell J. Hewett, Mojan Javaheripi, Piero Kauffmann, James R. Lee, Yin Tat Lee, Yuanzhi Li, Weishung Liu, Caio C. T. Mendes, Anh Nguyen, Eric Price, Gustavo de Rosa, Olli Saarikivi, Adil Salim, Shital Shah, Xin Wang, Rachel Ward, Yue Wu, Dingli Yu, Cyril Zhang, Yi Zhang

121

Мы представляем phi-4, языковую модель с 14 миллиардами параметров, разработанную с упором на качество данных в центре обучающего процесса. В отличие от большинства языковых моделей, где предварительное обучение в основном основано на органических источниках данных, таких как веб-контент или код, phi-4 стратегически включает синтетические данные на протяжении всего процесса обучения. В то время как предыдущие модели семейства Phi в значительной степени концентрировались на усвоении возможностей учительской модели (конкретно GPT-4), phi-4 значительно превосходит свою учительскую модель в области вопросов и ответов, связанных с STEM, что свидетельствует о том, что наши методы генерации данных и пост-обучения выходят за рамки усвоения. Несмотря на минимальные изменения в архитектуре phi-3, phi-4 достигает высокой производительности относительно своего размера, особенно на бенчмарках, ориентированных на рассуждения, благодаря улучшенным данным, обучающему плану и инновациям в схеме пост-обучения.

InternLM-XComposer2.5-OmniLive: Комплексная мультимодальная система для долгосрочного потокового взаимодействия с видео и аудио.
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

Dec 12

ByPan Zhang, Xiaoyi Dong, Yuhang Cao, Yuhang Zang, Rui Qian, Xilin Wei, Lin Chen, Yifei Li, Junbo Niu, Shuangrui Ding, Qipeng Guo, Haodong Duan, Xin Chen, Han Lv, Zheng Nie, Min Zhang, Bin Wang, Wenwei Zhang, Xinyue Zhang, Jiaye Ge, Wei Li, Jingwen Li, Zhongying Tu, Conghui He, Xingcheng Zhang, Kai Chen, Yu Qiao, Dahua Lin, Jiaqi Wang

Создание систем искусственного интеллекта, способных взаимодействовать с окружающей средой на протяжении длительных периодов, подобно человеческому познанию, является давней целью исследований. Недавние достижения в области мультимодальных крупных языковых моделей (MLLMs) сделали значительные шаги в понимании открытого мира. Однако вызов непрерывного и одновременного потокового восприятия, памяти и рассуждений остается в значительной степени неисследованным. Текущие MLLMs ограничены своей архитектурой последовательности-последовательности, что ограничивает их способность обрабатывать входные данные и генерировать ответы одновременно, подобно невозможности мыслить во время восприятия. Более того, полагаться на длинные контексты для хранения исторических данных непрактично для долгосрочного взаимодействия, поскольку сохранение всей информации становится дорогостоящим и неэффективным. Поэтому вместо полагания на одну основную модель для выполнения всех функций, данный проект черпает вдохновение из концепции Специализированного Генералистского ИИ и представляет потоковые механизмы восприятия, рассуждений и памяти, позволяющие взаимодействовать в реальном времени с потоковым видео- и аудиовходом. Предложенная структура InternLM-XComposer2.5-OmniLive (IXC2.5-OL) состоит из трех ключевых модулей: (1) Модуль Потокового Восприятия: Обрабатывает мультимодальную информацию в реальном времени, сохраняя ключевые детали в памяти и вызывая рассуждения в ответ на запросы пользователя. (2) Мультимодульный Долгосрочный Модуль Памяти: Интегрирует краткосрочную и долгосрочную память, сжимая краткосрочные воспоминания в долгосрочные для эффективного извлечения и улучшения точности. (3) Модуль Рассуждений: Отвечает на запросы и выполняет задачи рассуждений, взаимодействуя с модулями восприятия и памяти. Данный проект моделирует познание, подобное человеческому, позволяя мультимодальным крупным языковым моделям предоставлять непрерывное и адаптивное обслуживание со временем.

Евклид: Усиление мультимодальных LLM с синтетическими высококачественными визуальными описаниями.
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions

Dec 11

ByJiarui Zhang, Ollie Liu, Tianyu Yu, Jinyi Hu, Willie Neiswanger

Многомодельные модели языка большого объема (MLLM) продемонстрировали быстрый прогресс в последние годы, однако продолжают испытывать трудности с низкоуровневым визуальным восприятием (LLVP) - особенно с точностью описания геометрических деталей изображения. Эта способность критически важна для применения в областях, таких как робототехника, медицинский анализ изображений и производство. В данной статье мы в первую очередь представляем Geoperception - бенчмарк, разработанный для оценки способности MLLM точно транскрибировать 2D геометрическую информацию изображения. Используя этот бенчмарк, мы демонстрируем ограничения ведущих MLLM, а затем проводим всестороннее эмпирическое исследование для изучения стратегий улучшения их производительности на геометрических задачах. Наши результаты подчеркивают преимущества определенных архитектур моделей, методов обучения и стратегий работы с данными, включая использование высококачественных синтетических данных и многоступенчатое обучение с учебным планом. Особенно мы обнаружили, что учебный план позволяет моделям изучать сложные задачи понимания геометрии, которые им не удается выучить с нуля. Используя эти находки, мы разрабатываем Euclid - семейство моделей, специально оптимизированных для сильного низкоуровневого геометрического восприятия. Хотя Euclid обучен исключительно на синтетических многомодальных данных, он проявляет сильные способности к обобщению на новые геометрические формы. Например, Euclid превосходит лучшую модель закрытого исходного кода, Gemini-1.5-Pro, на до 58,56% по некоторым задачам бенчмарка Geoperception и в среднем на 10,65% по всем задачам.

Лира: эффективная и ориентированная на речь платформа для всепонимания
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Dec 12

ByZhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia

По мере развития многофункциональных крупных языковых моделей (MLLM), расширение их возможностей за пределы одной области становится необходимым для удовлетворения требований к более универсальному и эффективному искусственному интеллекту. Однако ранее созданные всемодельные модели недостаточно исследовали речь, игнорируя ее интеграцию с мульти-модальностью. Мы представляем Lyra, эффективную MLLM, которая улучшает мульти-модальные способности, включая продвинутое понимание длинной речи, понимание звука, эффективность между модальностями и беспрепятственное взаимодействие с речью. Для достижения эффективности и способностей к обработке речи Lyra использует три стратегии: (1) использование существующих крупных моделей с открытым исходным кодом и предложенной мульти-модальной LoRA для снижения затрат на обучение и требований к данным; (2) применение латентного регуляризатора и экстрактора мульти-модальности для укрепления связи между речью и другими модальностями, тем самым улучшая производительность модели; и (3) создание высококачественного обширного набора данных, включающего 1,5 млн мульти-модальных (язык, зрение, аудио) образцов данных и 12 тыс. образцов длинной речи, что позволяет Lyra обрабатывать сложные входы длинной речи и достигать более надежного всепонимания. По сравнению с другими всеметодными подходами, Lyra достигает передовой производительности на различных бенчмарках язык-зрение, зрение-речь и речь-язык, при этом используя меньше вычислительных ресурсов и меньше данных для обучения.

Мультимодельное латентное моделирование языка с диффузией следующего токена
Multimodal Latent Language Modeling with Next-Token Diffusion

Dec 11

ByYutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei

Мультимодельные генеративные модели требуют единого подхода к обработке как дискретных данных (например, текста и кода), так и непрерывных данных (например, изображений, звука, видео). В данной работе мы предлагаем модель латентного языкового моделирования (LatentLM), которая плавно интегрирует непрерывные и дискретные данные с использованием причинных трансформеров. Конкретно, мы используем вариационный автокодировщик (VAE) для представления непрерывных данных в виде латентных векторов и вводим диффузию следующего токена для авторегрессивной генерации этих векторов. Кроме того, мы разрабатываем sigma-VAE для решения проблемы коллапса дисперсии, что критично для авторегрессивного моделирования. Обширные эксперименты демонстрируют эффективность LatentLM в различных модальностях. В генерации изображений LatentLM превосходит Диффузионные трансформеры как по производительности, так и по масштабируемости. При интеграции в мультимодельные большие языковые модели LatentLM предоставляет универсальный интерфейс, который объединяет мультимодальную генерацию и понимание. Экспериментальные результаты показывают, что LatentLM достигает более высокой производительности по сравнению с моделями Transfusion и векторизованными моделями при увеличении количества обучающих токенов. В синтезе текста в речь LatentLM превосходит современную модель VALL-E 2 по сходству и устойчивости к диктору, требуя в 10 раз меньше шагов декодирования. Результаты утверждают LatentLM как высокоэффективный и масштабируемый подход для продвижения крупных мультимодельных моделей.

AgentTrek: Синтез траектории агента с помощью направляющего повтора с веб-учебниками
AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Dec 12

ByYiheng Xu, Dunjie Lu, Zhennan Shen, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu

Агенты с графическим пользовательским интерфейсом (GUI) обладают большим потенциалом для автоматизации сложных задач в различных цифровых средах, от веб-приложений до программного обеспечения на рабочем столе. Однако разработка таких агентов затруднена из-за отсутствия высококачественных многошаговых траекторий, необходимых для эффективного обучения. Существующие подходы полагаются на дорогостоящую и трудоемкую аннотацию людей, что делает их невозможными для масштабирования. Для решения этой проблемы мы предлагаем AgentTrek, масштабный конвейер синтеза данных, который генерирует высококачественные траектории агентов с GUI, используя веб-учебники. Наш метод автоматически собирает тексты, похожие на учебники, из интернета, преобразует их в целевые задачи с пошаговыми инструкциями и использует агента с визуально-языковой моделью для моделирования их выполнения в реальной цифровой среде. Оценщик на основе VLM обеспечивает правильность сгенерированных траекторий. Мы демонстрируем, что обучение агентов с GUI на основе этих синтезированных траекторий значительно улучшает их базовую и планировочную производительность по сравнению с текущими моделями. Более того, наш подход более экономичен по сравнению с традиционными методами аннотации людей. Эта работа подчеркивает потенциал направленного повторения с использованием веб-учебников как жизнеспособной стратегии для обучения агентов с GUI в крупном масштабе, открывая путь для более способных и автономных цифровых агентов.

SnapGen: Укрощение моделей текст-в-изображение высокого разрешения для мобильных устройств с эффективными архитектурами и обучением
SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training

Dec 12

ByDongting Hu, Jierun Chen, Xijie Huang, Huseyin Coskun, Arpit Sahni, Aarush Gupta, Anujraaj Goyal, Dishani Lahiri, Rajesh Singh, Yerlan Idelbayev, Junli Cao, Yanyu Li, Kwang-Ting Cheng, S. -H. Gary Chan, Mingming Gong, Sergey Tulyakov, Anil Kag, Yanwu Xu, Jian Ren

Существующие модели диффузии текста в изображение (T2I) сталкиваются с несколькими ограничениями, включая большие размеры моделей, медленное время выполнения и низкое качество генерации на мобильных устройствах. Цель данной статьи заключается в решении всех этих проблем путем разработки крайне маленькой и быстрой модели T2I, способной генерировать изображения высокого разрешения и качества на мобильных платформах. Мы предлагаем несколько техник для достижения этой цели. Во-первых, мы систематически изучаем выбор дизайна архитектуры сети для сокращения параметров модели и задержки, обеспечивая при этом высокое качество генерации. Во-вторых, для дальнейшего улучшения качества генерации мы используем дистилляцию знаний между архитектурами от гораздо более крупной модели, применяя многоуровневый подход для направления обучения нашей модели с нуля. В-третьих, мы обеспечиваем генерацию на несколько шагов, интегрируя направление адверсариального обучения с дистилляцией знаний. Впервые наша модель SnapGen демонстрирует генерацию изображений размером 1024x1024 пикселя на мобильном устройстве примерно за 1.4 секунды. На наборе данных ImageNet-1K наша модель с всего лишь 372 миллионами параметров достигает значения FID 2.06 для генерации изображений размером 256x256 пикселей. На бенчмарках T2I (т.е. GenEval и DPG-Bench) наша модель с всего лишь 379 миллионами параметров превосходит крупномасштабные модели с миллиардами параметров при значительно меньшем размере (например, в 7 раз меньше, чем у SDXL, и в 14 раз меньше, чем у IF-XL).

EasyRef: Omni-Обобщенная групповая изображенческая ссылка для моделей диффузии через Мультимодальную LLM
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

Dec 12

ByZhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li

Были отмечены значительные достижения в персонализации моделей диффузии. Традиционные методы без настройки в основном кодируют несколько опорных изображений путем усреднения их вложений изображений в качестве условия инъекции, однако такая операция, независимая от изображения, не способна взаимодействовать между изображениями для захвата согласованных визуальных элементов в нескольких опорных изображениях. Хотя настраиваемый метод низкоранговой адаптации (LoRA) может эффективно извлекать согласованные элементы в нескольких изображениях в процессе обучения, он требует специфической донастройки для каждой отдельной группы изображений. В данной статье представлен метод EasyRef, новый метод адаптации "подключи и используй", который позволяет моделям диффузии быть условными по отношению к нескольким опорным изображениям и текстовому запросу. Для эффективного использования согласованных визуальных элементов в нескольких изображениях мы используем мультимодельную модель на основе большого языкового моделирования (MLLM), побуждая ее захватывать согласованные визуальные элементы на основе инструкции. Кроме того, инъекция представлений MLLM в процесс диффузии через адаптеры может легко обобщаться на невидимые области, извлекая согласованные визуальные элементы в невидимых данных. Для снижения вычислительных затрат и улучшения сохранения мелких деталей мы предлагаем эффективную стратегию агрегации опорных изображений и пошаговую схему обучения. Наконец, мы представляем MRBench, новый бенчмарк генерации множественных опорных изображений. Экспериментальные результаты показывают, что EasyRef превосходит как методы без настройки, такие как IP-Adapter, так и настраиваемые методы, такие как LoRA, достигая превосходного эстетического качества и надежной обобщения без обучения на различных областях.

JuStRank: Оценка судей LLM для ранжирования систем.
JuStRank: Benchmarking LLM Judges for System Ranking

Dec 12

ByAriel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai

С учетом быстрого прогресса генеративного искусственного интеллекта существует настоятельная необходимость систематического сравнения и выбора между многочисленными моделями и конфигурациями, доступными на рынке. Масштаб и универсальность таких оценок делают использование судей на основе LLM привлекательным решением для данной проблемы. Критически важно, чтобы этот подход сначала подтвердил качество самого судьи LLM. Предыдущие исследования сосредоточились на оценке судей LLM на основе экземпляров, где судья оценивается по набору ответов или пар ответов, не принимая во внимание их исходные системы. Мы считаем, что такой подход упускает важные факторы, влияющие на ранжирование на уровне системы, такие как положительное или отрицательное отношение судьи к определенным системам. Для устранения этого пробела мы проводим первое крупномасштабное исследование судей LLM в качестве ранжировщиков систем. Оценки систем формируются путем агрегирования оценок судейства по множеству выходных данных систем, и качество судьи оценивается путем сравнения полученного ранжирования систем с ранжированием на основе человеческого вмешательства. Помимо общей оценки судьи, наш анализ предоставляет детальную характеристику поведения судьи, включая их решительность и предвзятость.

Нейронный световой риг: раскрытие точной оценки нормалей объектов и материалов с помощью многолучевого диффузии.
Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion

Dec 12

ByZexin He, Tengfei Wang, Xin Huang, Xingang Pan, Ziwei Liu

Восстановление геометрии и материалов объектов по одному изображению представляет собой сложную задачу из-за ее недоопределенности. В данной статье мы представляем Neural LightRig, новую структуру, которая повышает внутреннюю оценку, используя вспомогательные многократные условия освещения из 2D диффузионных априорных данных. Конкретно, 1) мы сначала используем априорные данные об освещении из моделей диффузии большого масштаба для построения нашей многократной диффузионной модели на синтетическом наборе данных по переосвещению с специально разработанными конструкциями. Эта модель диффузии генерирует несколько согласованных изображений, каждое из которых освещено точечными источниками света в разных направлениях. 2) Используя эти разнообразные изображения освещения для уменьшения неопределенности оценки, мы обучаем большую модель буфера G с основой U-Net для точного прогнозирования нормалей поверхности и материалов. Обширные эксперименты подтверждают, что наш подход значительно превосходит современные методы, обеспечивая точную оценку нормалей поверхности и материалов PBR с яркими эффектами переосвещения. Код и набор данных доступны на нашей странице проекта по адресу https://projects.zxhezexin.com/neural-lightrig.

PIG: Физически обоснованные гауссовы функции как адаптивные параметрические сеточные представления
PIG: Physics-Informed Gaussians as Adaptive Parametric Mesh Representations

Dec 8

ByNamgyu Kang, Jaemin Oh, Youngjoon Hong, Eunbyung Park

Аппроксимация уравнений частных производных (УЧП) с использованием нейронных сетей заметно продвинулась благодаря физически информированным нейронным сетям (PINNs). Несмотря на их простую оптимизационную структуру и гибкость в реализации различных УЧП, PINNs часто страдают от ограниченной точности из-за спектрального смещения многослойных перцептронов (MLPs), которые испытывают затруднения в эффективном изучении высокочастотных и нелинейных компонентов. Недавно параметрические сетки в сочетании с нейронными сетями были исследованы как многообещающий подход для устранения индуктивных смещений нейронных сетей. Однако обычно для достижения высокой точности и избежания проблем переобучения требуются сетки с очень высоким разрешением и большое количество точек коллокации. Кроме того, фиксированные позиции параметров сетки ограничивают их гибкость, что затрудняет точную аппроксимацию сложных УЧП. Для преодоления этих ограничений мы предлагаем физически информированные гауссианы (PIGs), которые объединяют вложения признаков с использованием гауссовых функций с легкой нейронной сетью. Наш подход использует обучаемые параметры для среднего и дисперсии каждой гауссианы, что позволяет динамически настраивать их позиции и формы во время обучения. Эта адаптивность позволяет нашей модели оптимально аппроксимировать решения УЧП, в отличие от моделей с фиксированными позициями параметров. Более того, предложенный подход сохраняет ту же оптимизационную структуру, используемую в PINNs, что позволяет нам воспользоваться их отличными свойствами. Экспериментальные результаты показывают конкурентоспособную производительность нашей модели на различных УЧП, демонстрируя ее потенциал как надежного инструмента для решения сложных УЧП. Наша страница проекта доступна по адресу https://namgyukang.github.io/Physics-Informed-Gaussians/

Обучаемое сжатие для сжатого обучения
Learned Compression for Compressed Learning

Dec 12

ByDan Jacobellis, Neeraja J. Yadwadkar

Современные сенсоры производят все более богатые потоки данных высокого разрешения. Из-за ограничений ресурсов системы машинного обучения отбрасывают подавляющее большинство этой информации путем снижения разрешения. Обучение в сжатом домене позволяет моделям работать с компактными латентными представлениями, обеспечивая более высокое эффективное разрешение при том же бюджете. Однако существующие системы сжатия не идеальны для сжатого обучения. Линейное трансформационное кодирование и системы сжатия с обучением от начала до конца снижают битрейт, но не равномерно сокращают размерность; поэтому они не значительно увеличивают эффективность. Генеративные автоэнкодеры снижают размерность, но их адверсарные или перцептивные цели приводят к значительной потере информации. Для решения этих ограничений мы представляем WaLLoC (Wavelet Learned Lossy Compression) - нейронную архитектуру кодека, которая объединяет линейное трансформационное кодирование с нелинейными автоэнкодерами, сокращающими размерность. WaLLoC вставляет неглубокий асимметричный автоэнкодер и энтропийное узкое место между обратимым вейвлет-пакетным преобразованием. По нескольким ключевым метрикам WaLLoC превосходит автоэнкодеры, используемые в современных моделях латентного диффузии. WaLLoC не требует перцептивных или адверсарных потерь для представления высокочастотных деталей, что обеспечивает совместимость с модальностями за пределами RGB-изображений и стереоаудио. Энкодер WaLLoC состоит почти полностью из линейных операций, что делает его исключительно эффективным и подходящим для мобильных вычислений, дистанционного зондирования и обучения непосредственно на сжатых данных. Мы демонстрируем способность WaLLoC к обучению в сжатом домене на нескольких задачах, включая классификацию изображений, окрашивание, понимание документов и разделение источников музыки. Наш код, эксперименты и предварительно обученные аудио- и изображенческие кодеки доступны по адресу https://ut-sysml.org/walloc.

Сверхразрешение изображений с помощью произвольных шагов через инверсию диффузии
Arbitrary-steps Image Super-resolution via Diffusion Inversion

Dec 12

ByZongsheng Yue, Kang Liao, Chen Change Loy

Данное исследование представляет новый метод суперразрешения изображений (SR) на основе инверсии диффузии, направленный на использование богатых априорных данных изображений, заключенных в больших предварительно обученных моделях диффузии, для улучшения производительности SR. Мы разработали стратегию Частичного предсказания шума для создания промежуточного состояния модели диффузии, которое служит отправной точкой для выборки. Основой нашего подхода является глубокий предсказатель шума для оценки оптимальных карт шума для процесса прямой диффузии. После обучения этот предсказатель шума может быть использован для инициализации процесса выборки частично вдоль траектории диффузии, генерируя желаемый результат высокого разрешения. По сравнению с существующими методами, наш метод предлагает гибкий и эффективный механизм выборки, поддерживающий произвольное количество шагов выборки, от одного до пяти. Даже с одним шагом выборки наш метод демонстрирует превосходную или сравнимую производительность по сравнению с последними передовыми методами. Код и модель доступны публично по адресу https://github.com/zsyOAOA/InvSR.

VisionArena: 230 тыс. разговоров пользователей в реальном мире с метками предпочтений VLM
VisionArena: 230K Real World User-VLM Conversations with Preference Labels

Dec 11

ByChristopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang

С растущим принятием и возможностями моделей видео-языкового взаимодействия (VLM) возникает необходимость в бенчмарках, отражающих аутентичные взаимодействия пользователей с VLM. В ответ на это мы создали VisionArena - набор данных из 230 тыс. реальных разговоров между пользователями и VLM. Собранные с платформы Chatbot Arena - открытой платформы, где пользователи взаимодействуют с VLM и отправляют голоса за предпочтения - VisionArena охватывает 73 тыс. уникальных пользователей, 45 VLM и 138 языков. Наш набор данных содержит три подмножества: VisionArena-Chat, 200 тыс. одиночных и многоходовых разговоров между пользователем и VLM; VisionArena-Battle, 30 тыс. разговоров, сравнивающих два анонимных VLM с голосами пользователей за предпочтения; и VisionArena-Bench, автоматический бенчмарк из 500 разнообразных запросов пользователей, которые эффективно приближают рейтинги моделей в реальном времени на платформе Chatbot Arena. Кроме того, мы выделяем типы вопросов, задаваемых пользователями, влияние стиля ответа на предпочтения и области, в которых модели часто терпят неудачу. Мы обнаружили, что задачи с открытым окончанием, такие как подписывание и юмор, сильно зависят от стиля, и текущие VLM часто испытывают трудности с пространственным мышлением и планированием. Наконец, мы показываем, что донастройка одной и той же базовой модели на VisionArena-Chat превосходит Llava-Instruct-158K, с приростом на 17 пунктов в MMMU и на 46 пунктов в бенчмарке WildVision. Набор данных по ссылке https://huggingface.co/lmarena-ai

OLA-VLM: Повышение визуального восприятия в мультимодальных LLM с вспомогательным дистилляцией встраиваниями
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation

Dec 12

ByJitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang

Стандартной практикой для разработки современных многослойных языковых моделей является подача признаков от визионных кодировщиков в LLM и обучение с использованием натурального языкового надзора. В данной работе мы предполагаем, что существует недооцененная возможность оптимизации промежуточных представлений LLM через визионную перспективу (цель), то есть исключительно натуральный языковой надзор является неоптимальным для визуальной способности понимания MLLM. Для этой цели мы предлагаем OLA-VLM, первый подход к дистилляции знаний в скрытые представления LLM из набора целевых визуальных представлений. Во-первых, мы формулируем цель во время предварительного обучения в MLLM как совместную оптимизацию предсказательного визуального встраивания и предсказания следующего текстового токена. Во-вторых, мы исследуем MLLM, обученные исключительно с использованием натурального языкового надзора, и выявляем положительную корреляцию между качеством визуальных представлений в этих моделях и их производительностью на следующем уровне. Более того, при исследовании нашего OLA-VLM мы наблюдаем улучшение качества представлений благодаря оптимизации встраивания. В-третьих, мы демонстрируем, что наш OLA-VLM превосходит одиночные и мульти-кодировщики базовой линии, доказывая превосходство нашего подхода над явной подачей соответствующих признаков в LLM. В частности, OLA-VLM повышает производительность в среднем на до 2,5% на различных бенчмарках, с заметным улучшением на 8,7% в задаче Глубины в CV-Bench. Наш код доступен по ссылке https://github.com/SHI-Labs/OLA-VLM.

RuleArena: набор данных для оценки правил управляемого рассуждения с LLM в реальных сценариях.
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios

Dec 12

ByRuiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang

Этот документ представляет RuleArena, новый и сложный бенчмарк, разработанный для оценки способности крупных языковых моделей (LLM) следовать сложным правилам рассуждения в реальном мире. Охватывая три практических области - сборы за багаж в авиакомпаниях, транзакции НБА и налоговое законодательство - RuleArena оценивает умение LLM обращаться с сложными инструкциями на естественном языке, требующими понимания длинного контекста, логического рассуждения и точных математических вычислений. Два ключевых атрибута отличают RuleArena от традиционных бенчмарков на основе правил: (1) он выходит за рамки стандартных представлений логики первого порядка и (2) он основан на аутентичных, практических сценариях, предоставляя понимание о пригодности и надежности LLM для прикладных задач в реальном мире. Наши результаты показывают несколько значительных ограничений в LLM: (1) они испытывают затруднения в определении и применении соответствующих правил, часто путаясь из-за похожих, но различных нормативов, (2) они не могут последовательно выполнять точные математические вычисления, даже когда правильно определяют соответствующие правила, и (3) в целом показывают плохие результаты в бенчмарке. Эти результаты подчеркивают значительные вызовы в развитии способностей к рассуждению по правилам в LLM в прикладных ситуациях реальной жизни.

Влияние авторского материала на большие языковые модели: норвежская перспектива
The Impact of Copyrighted Material on Large Language Models: A Norwegian Perspective

Dec 12

ByJavier de la Rosa, Vladislav Mikhailov, Lemei Zhang, Freddy Wetjen, David Samuel, Peng Liu, Rolv-Arild Braaten, Petter Mæhlum, Magnus Breder Birkenes, Andrey Kutuzov, Tita Enstad, Svein Arne Brygfjeld, Jon Atle Gulla, Stephan Oepen, Erik Velldal, Wilfred Østgulen, Liljia Øvrelid, Aslak Sira Myhre

Использование материалов, охраняемых авторским правом, при обучении генеративных языковых моделей вызывает важные юридические и этические вопросы. В данной статье представлено средство и результаты эмпирической оценки влияния авторских материалов на производительность крупных языковых моделей (LLM) для норвежского языка. Мы обнаружили, что как книги, так и газеты положительно влияют на модели при оценке на разнообразных норвежских бенчмарках, в то время как художественная литература, возможно, приводит к снижению производительности. Наши эксперименты могут стать основой для разработки компенсационной схемы для авторов, чьи произведения вносят вклад в развитие искусственного интеллекта.

Связывание смысла слов: разрешение неоднозначности за пределами песочницы.
Word Sense Linking: Disambiguating Outside the Sandbox

Dec 12

ByAndrei Stefan Bejgu, Edoardo Barba, Luigi Procopio, Alberte Fernández-Castro, Roberto Navigli

Задача разрешения многозначности слов (Word Sense Disambiguation, WSD) заключается в ассоциировании слова в данном контексте с наиболее подходящим значением из набора возможных вариантов. Несмотря на то, что в последнее время наблюдается возросший интерес к этой задаче, и системы достигают результатов выше оцененного согласия между аннотаторами, на момент написания статьи она все еще испытывает затруднения в поиске прикладных применений. Мы считаем, что одной из причин этого является сложность применения WSD к обычному тексту. Действительно, в стандартной формулировке модели работают с предположениями, что а) все фрагменты для разрешения многозначности уже были идентифицированы, и б) все возможные кандидаты на значения для каждого фрагмента предоставлены, что является требованиями, далекими от тривиальности. В данной работе мы представляем новую задачу под названием Связывание Значений Слов (Word Sense Linking, WSL), где, имея на входе текст и справочный инвентарь значений, системы должны как определить, какие фрагменты нужно разрешить, так и связать их с наиболее подходящим значением. Мы предлагаем архитектуру на основе трансформера для этой задачи и тщательно оцениваем как ее производительность, так и производительность передовых систем WSD, масштабированных до WSL, итеративно смягчая предположения WSD. Мы надеемся, что наша работа способствует более легкой интеграции лексической семантики в прикладные приложения.

Потоки нормализации - это мощные генеративные модели.
Normalizing Flows are Capable Generative Models

Dec 9

ByShuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind

Потоки нормализации (NF) - это модели на основе правдоподобия для непрерывных входных данных. Они продемонстрировали многообещающие результаты как в задачах оценки плотности, так и в генеративном моделировании, но в последние годы получили относительно мало внимания. В данной работе мы демонстрируем, что NF более мощны, чем ранее считалось. Мы представляем TarFlow: простую и масштабируемую архитектуру, которая позволяет создавать высокопроизводительные модели NF. TarFlow можно рассматривать как вариант на основе трансформера потоков маскированных авторегрессионных потоков (MAF): он состоит из стека авторегрессионных блоков трансформера на патчах изображений, чередуя направление авторегрессии между слоями. TarFlow легко обучать end-to-end и способен прямо моделировать и генерировать пиксели. Мы также предлагаем три ключевые техники для улучшения качества выборки: аугментация гауссовским шумом во время обучения, процедура денойзинга после обучения и эффективный метод руководства как для условно-классовых, так и для безусловных настроек. Объединяя все это, TarFlow устанавливает новые результаты state-of-the-art по оценке правдоподобия для изображений, превосходя предыдущие лучшие методы с большим отрывом, и генерирует образцы с качеством и разнообразием, сравнимыми с моделями диффузии, впервые с использованием автономной модели NF. Мы предоставляем наш код по адресу https://github.com/apple/ml-tarflow.

LoRACLR: Контрастная адаптация для настройки моделей диффузии.
LoRACLR: Contrastive Adaptation for Customization of Diffusion Models

Dec 12

ByEnis Simsar, Thomas Hofmann, Federico Tombari, Pinar Yanardag

Недавние достижения в персонализации текста к изображению позволили создавать изображения высокой точности с обилием контекста, позволяя определенным концепциям появляться в различных сценариях. Однако текущие методы испытывают затруднения при объединении нескольких персонализированных моделей, часто приводя к запутанности атрибутов или требуя отдельного обучения для сохранения отличительности концепций. Мы представляем LoRACLR, новый подход к генерации изображений с несколькими концепциями, который объединяет несколько моделей LoRA, каждая из которых донастраивается для отдельной концепции, в единую модель без дополнительного индивидуального донастройки. LoRACLR использует контрастный объект для выравнивания и слияния весовых пространств этих моделей, обеспечивая их совместимость и минимизируя взаимное влияние. Обеспечивая отдельные, но связные представления для каждой концепции, LoRACLR обеспечивает эффективное, масштабируемое объединение моделей для синтеза изображений высокого качества с несколькими концепциями. Наши результаты подчеркивают эффективность LoRACLR в точном объединении нескольких концепций, расширяя возможности персонализированной генерации изображений.

FreeSplatter: Безусловное гауссовское наложение для разреженного 3D восстановления.
FreeSplatter: Pose-free Gaussian Splatting for Sparse-view 3D Reconstruction

Dec 12

ByJiale Xu, Shenghua Gao, Ying Shan

Существующие модели восстановления с разреженным видом тяжело полагаются на точные известные позы камеры. Однако получение внешних и внутренних параметров камеры из изображений с разреженным видом представляет существенные трудности. В данной работе мы представляем FreeSplatter - высокомасштабную, прямолинейную структуру восстановления, способную генерировать высококачественные трехмерные гауссовы модели из некалиброванных изображений с разреженным видом и восстанавливать их параметры камеры всего за несколько секунд. FreeSplatter построен на упрощенной архитектуре трансформера, включающей последовательные блоки самовнимания, которые облегчают обмен информацией между токенами многовидовых изображений и декодируют их в пиксельно-мудрые трехмерные гауссовы примитивы. Предсказанные гауссовы примитивы находятся в унифицированной опорной системе, что позволяет получить трехмерное моделирование высокой точности и мгновенную оценку параметров камеры с использованием готовых решателей. Для удовлетворения как объектно-центричного, так и сценового восстановления мы обучаем две варианты модели FreeSplatter на обширных наборах данных. В обоих сценариях FreeSplatter превосходит современные базовые линии по качеству восстановления и точности оценки позы. Кроме того, мы демонстрируем потенциал FreeSplatter в увеличении производительности последующих приложений, таких как создание трехмерного контента из текста/изображения.

DisPose: Разъяснение направления позы для управляемой анимации человеческого изображения
DisPose: Disentangling Pose Guidance for Controllable Human Image Animation

Dec 12

ByHongxiang Li, Yaowei Li, Yuhang Yang, Junjie Cao, Zhihong Zhu, Xuxin Cheng, Long Chen

Анимация человеческого изображения с возможностью управления направлена на создание видеороликов из исходных изображений с использованием управляющих видеороликов. Из-за ограниченных управляющих сигналов, предоставляемых разреженным руководством (например, скелетная поза), недавние работы пытались ввести дополнительные плотные условия (например, карту глубины), чтобы обеспечить соответствие движения. Однако такое строгое плотное руководство ухудшает качество созданного видеоролика, когда форма тела исходного персонажа значительно отличается от той, что присутствует в управляющем видеоролике. В данной статье мы представляем DisPose для извлечения более обобщенных и эффективных управляющих сигналов без дополнительного плотного ввода, который разделяет разреженную скелетную позу в анимации человеческого изображения на направление движения и соответствие ключевых точек. Конкретно, мы генерируем плотное поле движения из разреженного поля движения и исходного изображения, что обеспечивает плотное руководство на уровне области, сохраняя при этом обобщение разреженного управления позой. Мы также извлекаем диффузионные особенности, соответствующие ключевым точкам позы, из исходного изображения, а затем эти точечные особенности передаются в целевую позу для предоставления отличной информации об идентичности. Для плавного интегрирования в существующие модели мы предлагаем гибридную ControlNet, которая улучшает качество и последовательность созданных видеороликов, сохраняя параметры существующей модели. Обширные качественные и количественные эксперименты демонстрируют превосходство DisPose по сравнению с текущими методами. Код: https://github.com/lihxxx/DisPose.

ONEBench для тестирования всех: бенчмаркинг на уровне образца для оценки открытых возможностей.
ONEBench to Test Them All: Sample-Level Benchmarking Over Open-Ended Capabilities

Dec 9

ByAdhiraj Ghosh, Sebastian Dziadzio, Ameya Prabhu, Vishaal Udandarao, Samuel Albanie, Matthias Bethge

Традиционные фиксированные наборы тестов недостаточно эффективны для оценки возможностей фундаментальных моделей. Для решения этой проблемы мы предлагаем ONEBench (OpeN-Ended Benchmarking) - новую парадигму тестирования, которая объединяет отдельные наборы данных для оценки в единый, постоянно расширяющийся образец. ONEBench позволяет пользователям создавать индивидуальные, открытые бенчмарки для оценки из этого образца, соответствующие конкретным интересующим возможностям. Агрегируя образцы из различных наборов тестов, ONEBench позволяет оценивать разнообразные возможности, выходящие за рамки оригинальных наборов тестов, при этом снижая переобучение и предвзятость данных. Важно отметить, что он представляет оценку модели как коллективный процесс выбора и агрегирования тестов на уровне образцов. Переход от задаче-специфичных бенчмарков к ONEBench вводит две проблемы: (1) гетерогенность и (2) неполноту. Гетерогенность относится к агрегации различных метрик, в то время как неполнота описывает сравнение моделей, оцененных на различных подмножествах данных. Для решения этих проблем мы исследуем алгоритмы для агрегации разреженных измерений в надежные оценки модели. Наш алгоритм агрегации обеспечивает идентифицируемость (асимптотическое восстановление истинных оценок) и быструю сходимость, обеспечивая точное ранжирование моделей с меньшим объемом данных. На однородных наборах данных мы показываем, что наш алгоритм агрегации предоставляет ранжирование, которое сильно коррелирует с теми, которые получаются на основе средних оценок. Мы также демонстрируем устойчивость к отсутствию примерно 95% измерений, снижая стоимость оценки до 20 раз с незначительным или отсутствующим изменением в ранжировании моделей. Мы представляем ONEBench-LLM для языковых моделей и ONEBench-LMM для моделей видео-языка, объединяя оценки в этих областях. В целом, мы представляем технику для открытой оценки, которая может агрегировать неполные, гетерогенные измерения на уровне образцов для постоянного расширения бенчмарка наряду с быстроразвивающимися фундаментальными моделями.

Обучение обобщенной языково-управляемой визуальной навигации с Состояние-адаптивным смесью экспертов
SAME: Learning Generic Language-Guided Visual Navigation with State-Adaptive Mixture of Experts

Dec 7

ByGengze Zhou, Yicong Hong, Zun Wang, Chongyang Zhao, Mohit Bansal, Qi Wu

Академическая область обучения навигации с участием инструкций может быть общим образом разделена на поиск высокого уровня по категориям и навигацию с учетом языковых инструкций низкого уровня, в зависимости от детализации языковых инструкций, где первое подчеркивает процесс исследования, в то время как второе сосредотачивается на выполнении подробных текстовых команд. Несмотря на различные акценты этих задач, основные требования к интерпретации инструкций, пониманию окружающей обстановки и выводу решений об акциях остаются постоянными. В данной статье разнообразные задачи навигации объединяются в единый и общий каркас - мы исследуем основные трудности обмена общими знаниями и использования специфических для задач возможностей в обучении навигации и предлагаем новую модель State-Adaptive Mixture of Experts (SAME), которая эффективно позволяет агенту выводить решения на основе языка различной детализации и динамических наблюдений. Поддерживаемый SAME, мы представляем универсального агента, способного одновременно решать семь задач навигации, превосходящего или достигающего высокой сравнимой производительности по сравнению с агентами, специализированными на задачу.

Gaze-LLE: Оценка цели взгляда с помощью крупномасштабных обученных кодировщиков
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders

Dec 12

ByFiona Ryan, Ajay Bati, Sangmin Lee, Daniel Bolya, Judy Hoffman, James M. Rehg

Мы рассматриваем проблему оценки точки взгляда, которая направлена на предсказание того, куда человек смотрит в сцене. Для предсказания точки взгляда человека необходимо рассуждать как о внешности человека, так и о содержании сцены. Предыдущие работы разработали все более сложные, созданные вручную конвейеры для оценки точки взгляда, тщательно объединяя признаки из отдельных кодировщиков сцены, кодировщиков головы и вспомогательных моделей для сигналов, таких как глубина и поза. Вдохновленные успехом универсальных извлекателей признаков на различных визуальных задачах, мы предлагаем Gaze-LLE, новую трансформерную структуру, которая упрощает оценку точки взгляда, используя признаки из замороженного кодировщика DINOv2. Мы извлекаем единственное представление признаков для сцены и применяем персональный позиционный запрос для расшифровки взгляда с помощью легкого модуля. Мы продемонстрировали передовые результаты на нескольких бенчмарках точки взгляда и предоставили обширный анализ для подтверждения наших дизайнерских решений. Наш код доступен по адресу: http://github.com/fkryan/gazelle .

Shiksha: Набор данных и модель перевода, сосредоточенные на технической области, для индийских языков
Shiksha: A Technical Domain focused Translation Dataset and Model for Indian Languages

Dec 12

ByAdvait Joglekar, Srinivasan Umesh

Модели нейронного машинного перевода (NMT) обычно обучаются на наборах данных с ограниченным охватом научных, технических и образовательных областей. Такие модели перевода, как правило, испытывают трудности при выполнении задач, связанных с научным пониманием или техническим жаргоном. Их производительность оказывается еще хуже для низкоресурсных индийских языков. Найти набор данных для перевода, ориентированный именно на эти области, представляет собой сложную задачу. В данной статье мы решаем эту проблему, создавая многоязычный параллельный корпус, содержащий более 2,8 миллионов строк переводов высокого качества с английского на индийские языки и между индийскими языками. Мы достигаем этого путем майнинга битекста человечески переведенных транскрипций видеолекций NPTEL. Мы также донастраиваем и оцениваем модели NMT с использованием этого корпуса и превосходим все другие публично доступные модели на задачах внутри домена. Мы также демонстрируем потенциал для обобщения на задачи перевода вне домена, улучшив базовый уровень более чем на 2 BLEU в среднем для этих индийских языков на тесте Flores+. Мы рады представить нашу модель и набор данных по следующей ссылке: https://huggingface.co/SPRINGLab.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Технический отчет Phi-4
Phi-4 Technical Report

Dec 12

121

InternLM-XComposer2.5-OmniLive: Комплексная мультимодальная система для долгосрочного потокового взаимодействия с видео и аудио.
InternLM-XComposer2.5-OmniLive: A Comprehensive Multimodal System for Long-term Streaming Video and Audio Interactions

Dec 12

Евклид: Усиление мультимодальных LLM с синтетическими высококачественными визуальными описаниями.
Euclid: Supercharging Multimodal LLMs with Synthetic High-Fidelity Visual Descriptions

Dec 11

ByJiarui Zhang, Ollie Liu, Tianyu Yu, Jinyi Hu, Willie Neiswanger

Лира: эффективная и ориентированная на речь платформа для всепонимания
Lyra: An Efficient and Speech-Centric Framework for Omni-Cognition

Dec 12

ByZhisheng Zhong, Chengyao Wang, Yuqi Liu, Senqiao Yang, Longxiang Tang, Yuechen Zhang, Jingyao Li, Tianyuan Qu, Yanwei Li, Yukang Chen, Shaozuo Yu, Sitong Wu, Eric Lo, Shu Liu, Jiaya Jia

Мультимодельное латентное моделирование языка с диффузией следующего токена
Multimodal Latent Language Modeling with Next-Token Diffusion

Dec 11

ByYutao Sun, Hangbo Bao, Wenhui Wang, Zhiliang Peng, Li Dong, Shaohan Huang, Jianyong Wang, Furu Wei

AgentTrek: Синтез траектории агента с помощью направляющего повтора с веб-учебниками
AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials

Dec 12

ByYiheng Xu, Dunjie Lu, Zhennan Shen, Junli Wang, Zekun Wang, Yuchen Mao, Caiming Xiong, Tao Yu

SnapGen: Укрощение моделей текст-в-изображение высокого разрешения для мобильных устройств с эффективными архитектурами и обучением
SnapGen: Taming High-Resolution Text-to-Image Models for Mobile Devices with Efficient Architectures and Training

Dec 12

EasyRef: Omni-Обобщенная групповая изображенческая ссылка для моделей диффузии через Мультимодальную LLM
EasyRef: Omni-Generalized Group Image Reference for Diffusion Models via Multimodal LLM

Dec 12

ByZhuofan Zong, Dongzhi Jiang, Bingqi Ma, Guanglu Song, Hao Shao, Dazhong Shen, Yu Liu, Hongsheng Li

JuStRank: Оценка судей LLM для ранжирования систем.
JuStRank: Benchmarking LLM Judges for System Ranking

Dec 12

ByAriel Gera, Odellia Boni, Yotam Perlitz, Roy Bar-Haim, Lilach Eden, Asaf Yehudai

Нейронный световой риг: раскрытие точной оценки нормалей объектов и материалов с помощью многолучевого диффузии.
Neural LightRig: Unlocking Accurate Object Normal and Material Estimation with Multi-Light Diffusion

Dec 12

ByZexin He, Tengfei Wang, Xin Huang, Xingang Pan, Ziwei Liu

PIG: Физически обоснованные гауссовы функции как адаптивные параметрические сеточные представления
PIG: Physics-Informed Gaussians as Adaptive Parametric Mesh Representations

Dec 8

ByNamgyu Kang, Jaemin Oh, Youngjoon Hong, Eunbyung Park

Обучаемое сжатие для сжатого обучения
Learned Compression for Compressed Learning

Dec 12

ByDan Jacobellis, Neeraja J. Yadwadkar

Сверхразрешение изображений с помощью произвольных шагов через инверсию диффузии
Arbitrary-steps Image Super-resolution via Diffusion Inversion

Dec 12

ByZongsheng Yue, Kang Liao, Chen Change Loy

VisionArena: 230 тыс. разговоров пользователей в реальном мире с метками предпочтений VLM
VisionArena: 230K Real World User-VLM Conversations with Preference Labels

Dec 11

ByChristopher Chou, Lisa Dunlap, Koki Mashita, Krishna Mandal, Trevor Darrell, Ion Stoica, Joseph E. Gonzalez, Wei-Lin Chiang

OLA-VLM: Повышение визуального восприятия в мультимодальных LLM с вспомогательным дистилляцией встраиваниями
OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation

Dec 12

ByJitesh Jain, Zhengyuan Yang, Humphrey Shi, Jianfeng Gao, Jianwei Yang

RuleArena: набор данных для оценки правил управляемого рассуждения с LLM в реальных сценариях.
RuleArena: A Benchmark for Rule-Guided Reasoning with LLMs in Real-World Scenarios

Dec 12

ByRuiwen Zhou, Wenyue Hua, Liangming Pan, Sitao Cheng, Xiaobao Wu, En Yu, William Yang Wang

Влияние авторского материала на большие языковые модели: норвежская перспектива
The Impact of Copyrighted Material on Large Language Models: A Norwegian Perspective

Dec 12

Связывание смысла слов: разрешение неоднозначности за пределами песочницы.
Word Sense Linking: Disambiguating Outside the Sandbox

Dec 12

ByAndrei Stefan Bejgu, Edoardo Barba, Luigi Procopio, Alberte Fernández-Castro, Roberto Navigli

Потоки нормализации - это мощные генеративные модели.
Normalizing Flows are Capable Generative Models

Dec 9

ByShuangfei Zhai, Ruixiang Zhang, Preetum Nakkiran, David Berthelot, Jiatao Gu, Huangjie Zheng, Tianrong Chen, Miguel Angel Bautista, Navdeep Jaitly, Josh Susskind