Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

LazyLLM: Динамическое обрезание токенов для эффективного вывода LLM с длинным контекстом
LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

Jul 19

ByQichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi

Выводы моделей больших языков на основе трансформеров состоят из двух последовательных этапов: 1) этап предварительного заполнения для вычисления кэша KV подсказок и генерации первого токена, и 2) этап декодирования для генерации последующих токенов. Для длинных подсказок кэш KV должен быть вычислен для всех токенов во время этапа предварительного заполнения, что может значительно увеличить время, необходимое для генерации первого токена. Следовательно, этап предварительного заполнения может стать узким местом в процессе генерации. Остается открытым вопрос, являются ли все токены подсказки необходимы для генерации первого токена. Для ответа на этот вопрос мы представляем новый метод, LazyLLM, который выборочно вычисляет KV для токенов, важных для предсказания следующего токена как на этапе предварительного заполнения, так и на этапе декодирования. В отличие от статических методов обрезки, которые сразу обрезают подсказку, LazyLLM позволяет моделям языка динамически выбирать различные подмножества токенов из контекста на разных этапах генерации, даже если они были обрезаны на предыдущих этапах. Обширные эксперименты на стандартных наборах данных по различным задачам показывают, что LazyLLM является универсальным методом, который может быть легко интегрирован с существующими языковыми моделями для значительного ускорения генерации без дополнительной настройки. Например, в задаче мультидокументного вопросно-ответного тестирования LazyLLM ускоряет этап предварительного заполнения модели LLama 2 7B в 2,34 раза, сохраняя точность.

Внутренняя согласованность и самоконтроль в больших языковых моделях: обзор
Internal Consistency and Self-Feedback in Large Language Models: A Survey

Jul 19

ByXun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li

Большие языковые модели (LLM) должны реагировать точно, но часто демонстрируют недостаточное рассуждение или генерируют галлюцинационный контент. Для решения этих проблем были начаты исследования с приставкой "Self-", такие как Self-Consistency, Self-Improve и Self-Refine. Они имеют общее: включение LLM в оценку и обновление самого себя для устранения проблем. Тем не менее, эти усилия лишены единой перспективы на сжатие, так как существующие обзоры в основном сосредотачиваются на категоризации без изучения мотивов этих работ. В данной статье мы обобщаем теоретическую концепцию, названную Внутренняя Согласованность, которая предлагает единые объяснения для явлений, таких как недостаток рассуждения и наличие галлюцинаций. Внутренняя Согласованность оценивает согласованность между скрытым слоем LLM, декодирующим слоем и слоем ответа на основе методологий выборки. Расширяя концепцию Внутренней Согласованности, мы представляем упрощенную, но эффективную теоретическую концепцию, способную извлекать Внутреннюю Согласованность, названную Self-Feedback. Концепция Self-Feedback состоит из двух модулей: Self-Evaluation и Self-Update. Эта концепция была использована во многих исследованиях. Мы систематически классифицируем эти исследования по задачам и направлениям работы; обобщаем соответствующие методы оценки и эталоны; и углубляемся в вопрос "Работает ли Self-Feedback на самом деле?" Мы предлагаем несколько критических точек зрения, включая гипотезу "Часовое Эволюция Внутренней Согласованности", гипотезу "Согласованность - (Почти) Правильность" и "Парадокс Скрытого и Явного Рассуждения". Кроме того, мы намечаем перспективные направления для будущих исследований. Мы предоставили в открытый доступ экспериментальный код, список литературы и статистические данные, доступные по ссылке https://github.com/IAAR-Shanghai/ICSFSurvey.

EVLM: Эффективная модель видео-языкового взаимодействия для визуального понимания
EVLM: An Efficient Vision-Language Model for Visual Understanding

Jul 19

ByKaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang

В области многомодальных языковых моделей большинство методов основаны на архитектуре, аналогичной LLaVA. Эти модели используют однослойную функцию ViT в качестве визуального стимула, подают ее непосредственно в языковые модели наряду с текстовыми токенами. Однако при работе с длинными последовательностями визуальных сигналов или входных данных, таких как видео, механизм самовнимания языковых моделей может привести к значительным вычислительным издержкам. Кроме того, использование однослойных функций ViT затрудняет полное восприятие визуальных сигналов большими языковыми моделями. В данной статье предлагается эффективная многомодальная языковая модель для минимизации вычислительных затрат, позволяющая модели воспринимать визуальные сигналы максимально полно. Наш метод включает в себя: (1) использование кросс-внимания для взаимодействия изображения-текст, аналогичного Flamingo. (2) использование иерархических функций ViT. (3) внедрение механизма Mixture of Experts (MoE) для улучшения эффективности модели. Наша модель достигает конкурентоспособных результатов на общедоступных многомодальных бенчмарках и успешно справляется с задачами, такими как описание изображений и описание видео.

Стабильное аудио открыто
Stable Audio Open

Jul 19

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

Открытые генеративные модели имеют важное значение для сообщества, позволяя проводить тонкую настройку и служа как базовые при представлении новых моделей. Однако большинство текущих моделей текст в аудио являются закрытыми и недоступными для художников и исследователей для дальнейшего развития. Здесь мы описываем архитектуру и процесс обучения новой открытой модели текст в аудио с открытыми весами, обученной на данных Creative Commons. Наша оценка показывает, что производительность модели конкурентоспособна с лучшими показателями по различным метрикам. Особенно отмечены результаты FDopenl3 (измерение реализма генерации), демонстрирующие ее потенциал для синтеза стереозвука высокого качества на частоте 44,1 кГц.

ChatQA 2: Преодоление разрыва собственных LLM в длинном контексте и RAG Возможности
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

Jul 19

ByPeng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

В данной работе мы представляем ChatQA 2, модель на основе Llama3, разработанную для сокрытия разрыва между общедоступными LLM и ведущими собственными моделями (например, GPT-4-Turbo) в понимании длинного контекста и возможностях генерации с увеличенным поиском (RAG). Эти две возможности являются важными для LLM в обработке больших объемов информации, которые не умещаются в один запрос, и дополняют друг друга в зависимости от конечных задач и вычислительных бюджетов. Мы представляем детальный рецепт продолжения обучения для расширения окна контекста базовой модели Llama3-70B с 8K до 128K токенов, а также трехэтапный процесс настройки инструкций для улучшения следования инструкциям модели, производительности RAG и способностей понимания длинного контекста. Наши результаты показывают, что модель Llama3-ChatQA-2-70B достигает точности, сравнимой с GPT-4-Turbo-2024-0409 на многих задачах понимания длинного контекста и превосходит ее в бенчмарке RAG. Интересно, что мы обнаружили, что передовой поисковик длинного контекста может уменьшить проблему фрагментации контекста top-k в RAG, дополнительно улучшая результаты на основе RAG для задач понимания длинного контекста. Мы также предоставляем обширные сравнения между решениями RAG и длинного контекста, используя передовые длинно-контекстные LLM.

Qalam: Мультимодальная LLM для оптического распознавания арабских символов и почерка.
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

Jul 18

ByGagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed

Оптическое распознавание символов (OCR) и распознавание почерка (HWR) на арабском языке представляют уникальные вызовы из-за курсивного и контекстно-зависимого характера арабского письма. В данном исследовании представлен Qalam, новая базовая модель, разработанная для арабского OCR и HWR, построенная на кодировщике SwinV2 и декодере RoBERTa. Наша модель значительно превосходит существующие методы, достигая уровня ошибок слов (WER) всего лишь 0,80% в задачах HWR и 1,18% в задачах OCR. Мы обучаем Qalam на разнообразном наборе данных, включающем более 4,5 миллионов изображений из арабских рукописей и синтетический набор данных, состоящий из 60 тыс. пар изображение-текст. Следует отметить, что Qalam продемонстрировал исключительное управление арабскими диакритическими знаками, критической особенностью арабских письменностей. Более того, он проявляет замечательную способность обрабатывать изображения высокого разрешения, преодолевая распространенное ограничение в текущих системах OCR. Эти достижения подчеркивают потенциал Qalam в качестве ведущего решения для распознавания арабского письма, предлагая значительный скачок в точности и эффективности.

VisFocus: Направляемые подсказками визионные кодировщики для плотного понимания документов без OCR.
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

Jul 17

ByOfir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha

В последние годы были сделаны значительные достижения в области понимания визуальных документов, с преобладающей архитектурой, включающей каскад моделей зрения и языка. Компонент текста может быть извлечен явно с использованием внешних моделей OCR в подходах на основе OCR, либо, альтернативно, модель зрения может быть наделена способностью к чтению в подходах без OCR. Обычно запросы к модели вводятся исключительно в компонент языка, что требует, чтобы визуальные признаки охватывали весь документ. В данной статье мы представляем VisFocus, метод без OCR, разработанный для более эффективного использования возможностей кодировщика зрения путем прямого его соединения с языковым запросом. Для этого мы заменяем слои с понижающим дискретизацию с входными слоями, которые получают входной запрос и позволяют выделять значимые части документа, игнорируя другие. Мы сочетаем улучшения архитектуры с новой задачей предварительного обучения, используя маскирование языка на фрагменте текста документа, поданного на вход визуальному кодировщику вместо запроса, чтобы наделить модель возможностью фокусировки. В результате VisFocus учится распределять внимание на текстовые участки, соответствующие предоставленному запросу. Наши эксперименты показывают, что этот подход к визуальному кодированию с управляемым запросом значительно улучшает производительность, достигая передовых результатов на различных бенчмарках.

Видение автономных вычислений: могут ли модели языков с большим объемом параметров сделать его реальностью?
The Vision of Autonomic Computing: Can LLMs Make It a Reality?

Jul 19

ByZhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

Видение Автономного Вычисления (ACV), предложенное более двух десятилетий назад, предвидит вычислительные системы, самостоятельно управляющиеся, подобно биологическим организмам, плавно адаптирующимся к изменяющимся окружениям. Несмотря на десятилетия исследований, достижение ACV остается сложной задачей из-за динамичной и сложной природы современных вычислительных систем. Недавние достижения в области Больших Языковых Моделей (LLM) предлагают многообещающие решения для этих вызовов, используя свои обширные знания, понимание языка и возможности автоматизации задач. В данной статье исследуется осуществимость реализации ACV через мультиагентную платформу на основе LLM для управления микросервисами. Мы представляем пятиуровневую таксономию для автономного обслуживания сервисов и представляем онлайн бенчмарк оценки на основе демонстрационного проекта микросервисов Sock Shop для оценки производительности нашей платформы. Наши результаты демонстрируют значительный прогресс в достижении уровня 3 автономности, подчеркивая эффективность LLM в обнаружении и устранении проблем в архитектурах микросервисов. Это исследование способствует развитию автономного вычисления путем пионерского внедрения LLM в платформы управления микросервисами, открывая путь к более адаптивным и самоуправляемым вычислительным системам. Код будет доступен по ссылке https://aka.ms/ACV-LLM.

SciCode: Набор данных для оценки кодирования в научных исследованиях, подготовленный учеными
SciCode: A Research Coding Benchmark Curated by Scientists

Jul 18

ByMinyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng

Поскольку языковые модели (ЯМ) в настоящее время превосходят среднего человека во многих сложных задачах, становится все сложнее разрабатывать сложные, высококачественные и реалистичные оценки. Мы решаем эту проблему, изучая способности ЯМ генерировать код для решения реальных научных исследовательских задач. Взяв во внимание мнение ученых и исследователей в области искусственного интеллекта в 16 различных естественнонаучных подобластях, включая математику, физику, химию, биологию и материаловедение, мы создали научно отобранный кодовый бенчмарк, SciCode. Задачи в SciCode естественным образом разбиваются на несколько подзадач, каждая из которых включает в себя воспоминание знаний, логическое мышление и синтез кода. В общей сложности SciCode содержит 338 подзадач, разложенных из 80 сложных основных задач. Он предлагает дополнительные описания, содержащие полезную научную информацию и научно аннотированные эталонные решения и тестовые случаи для оценки. Claude3.5-Sonnet, лучшая модель среди протестированных, способна решить лишь 4,6% задач в наиболее реалистичной ситуации. Мы считаем, что SciCode демонстрирует как прогресс современных ЯМ в становлении полезными научными помощниками, так и проливает свет на развитие и оценку научного искусственного интеллекта в будущем.

Быстрые умножения матриц для квантованных LLM с таблицей поиска
Fast Matrix Multiplications for Lookup Table-Quantized LLMs

Jul 15

ByHan Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim

Развертывание больших языковых моделей (LLM) часто ограничивается пропускной способностью памяти, где основным узким местом является стоимость передачи параметров модели из глобальной памяти GPU в ее регистры. В сочетании с пользовательскими ядрами, объединяющими операции деквантования и матричного умножения, квантование только весов может обеспечить более быстрое вывода, уменьшая объем перемещения памяти. Однако разработка высокопроизводительных ядер для весово-квантованных LLM представляет существенные вызовы, особенно когда веса сжимаются до неравномерных битовых ширин (например, 3 бита) с неравномерным квантованием через таблицу поиска (LUT). В данной статье описывается FLUTE, гибкий движок таблицы поиска для LUT-квантованных LLM, который использует офлайн-перестройку квантованной матрицы весов для минимизации битовых манипуляций, связанных с распаковкой, а также векторизацию и дублирование таблицы поиска для смягчения ограничений на пропускную способность общей памяти. При размерах партий < 32 и размере группы квантования 128 (типичном для вывода LLM) ядро FLUTE может быть в 2-4 раза быстрее существующих ядер GEMM. В качестве применения FLUTE мы исследуем простое расширение квантования на основе таблицы поиска NormalFloat и применяем его для квантования LLaMA3 в различные конфигурации, достигая конкурентоспособной производительности квантования по сравнению с сильными базовыми значениями, а также увеличивая пропускную способность от начала до конца на 1,5-2 раза.

Безопасность Phi-3 после обучения: выравнивание языковых моделей с циклом "исправление-устранение"
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle

Jul 18

ByEmman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler

Недавние инновации в обучении языковых моделей показали, что возможно создать высокопроизводительные модели, достаточно компактные для работы на смартфонах. Поскольку эти модели развертываются во все большем количестве областей, критически важно гарантировать их соответствие человеческим предпочтениям и вопросам безопасности. В данном отчете мы представляем нашу методологию для обеспечения безопасности серии языковых моделей Phi-3. Мы использовали цикл "исправление-улучшение", проводя несколько раундов курирования набора данных, обеспечения безопасности после обучения, тестирования производительности, "красной команды" и выявления уязвимостей для охвата различных областей вреда как в одиночных, так и в многоходовых сценариях. Наши результаты показывают, что такой подход итеративно улучшил производительность моделей Phi-3 по широкому спектру ответственных бенчмарков искусственного интеллекта.

Генерация текста в естественной среде.
Visual Text Generation in the Wild

Jul 19

ByYuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang

В последнее время, с быстрыми достижениями генеративных моделей, область генерации визуального текста переживает значительный прогресс. Однако по-прежнему вызывает трудности создание высококачественных изображений текста в реальных сценариях, так как необходимо удовлетворить три критических критерия: (1) Достоверность: сгенерированные изображения текста должны быть фотореалистичными, а содержание должно соответствовать заданным условиям; (2) Обоснованность: области и содержание сгенерированного текста должны соответствовать сцене; (3) Полезность: сгенерированные изображения текста могут облегчить связанные задачи (например, обнаружение и распознавание текста). Проведя исследование, мы обнаружили, что существующие методы, основанные на рендеринге или диффузии, едва ли могут одновременно удовлетворить все эти аспекты, что ограничивает их область применения. Поэтому в данной статье мы предлагаем визуальный генератор текста (названный SceneVTG), который способен создавать высококачественные изображения текста в естественной среде. Следуя двухэтапной парадигме, SceneVTG использует Мультимодельную Большую Языковую Модель для рекомендации разумных областей и содержания текста на различных масштабах и уровнях, которые используются условиями для генерации изображений текста с помощью условной модели диффузии. Обширные эксперименты показывают, что предложенный SceneVTG значительно превосходит традиционные методы, основанные на рендеринге, и недавние методы на основе диффузии по достоверности и обоснованности. Кроме того, сгенерированные изображения обладают превосходной полезностью для задач, связанных с обнаружением и распознаванием текста. Код и наборы данных доступны на AdvancedLiterateMachinery.

Ускорение: улучшение точности восстановления с помощью разреженных автокодировщиков с функцией активации JumpReLU.
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

Jul 19

BySenthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda

Разреженные автокодировщики (SAE) представляют собой многообещающий метод без учителя для выявления причинно значимых и интерпретируемых линейных признаков в активациях модели языка (LM). Для того чтобы быть полезными для последующих задач, SAE должны верно декомпозировать активации LM; однако для интерпретируемости декомпозиция должна быть разреженной - две цели, которые находятся в напряжении. В данной статье мы представляем JumpReLU SAE, которые достигают передовой точности восстановления на определенном уровне разреженности на активациях Gemma 2 9B по сравнению с другими недавними достижениями, такими как Gated и TopK SAE. Мы также показываем, что это улучшение не происходит за счет интерпретируемости через ручные и автоматизированные исследования интерпретируемости. JumpReLU SAE представляют собой простое изменение обычных (ReLU) SAE - где мы заменяем ReLU на разрывную активационную функцию JumpReLU - и аналогично эффективны в обучении и выполнении. Используя прямые оценщики (STEs) в принципиальной манере, мы показываем, как можно эффективно обучать JumpReLU SAE, несмотря на разрывную функцию JumpReLU, введенную в прямом проходе SAE. Аналогично мы используем STE для прямого обучения L0 на разреженность, вместо обучения на прокси, такие как L1, избегая проблем, таких как уменьшение.

PlacidDreamer: Продвижение гармонии в генерации текста в 3D.
PlacidDreamer: Advancing Harmony in Text-to-3D Generation

Jul 19

ByShuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia

Недавно генерация текста в 3D-формат привлекла значительное внимание, что привело к значительному улучшению производительности. Предыдущие методы используют модели генерации 3D с конца в конец для инициализации 3D-гауссиан, модели диффузии с множественным видом для обеспечения согласованности множественных видов и модели диффузии текста в изображение для уточнения деталей с алгоритмами дистилляции оценок. Однако эти методы имеют два ограничения. Во-первых, они сталкиваются с конфликтами в направлениях генерации, поскольку различные модели нацелены на создание разнообразных 3D-активов. Во-вторых, проблема пересыщения в дистилляции оценок не была тщательно исследована и решена. Для преодоления этих ограничений мы предлагаем PlacidDreamer, фреймворк текста в 3D, который гармонизирует инициализацию, генерацию с множественным видом и генерацию с условиями текста с помощью единой модели диффузии с множественным видом, одновременно используя новый алгоритм дистилляции оценок для достижения сбалансированного насыщения. Для объединения направления генерации мы представляем модуль Латентной Плоскости, дружественное к обучению расширение плагина, которое позволяет моделям диффузии с множественным видом обеспечивать быструю реконструкцию геометрии для инициализации и улучшенные многовидовые изображения для персонализации модели диффузии текста в изображение. Для решения проблемы пересыщения мы предлагаем рассматривать дистилляцию оценок как многокритериальную оптимизацию и представляем алгоритм Сбалансированной Дистилляции Оценок, который предлагает оптимальное решение Парето, достигающее богатых деталей и сбалансированного насыщения. Обширные эксперименты подтверждают выдающиеся возможности нашего PlacidDreamer. Код доступен по адресу https://github.com/HansenHuang0823/PlacidDreamer.

Эффективное создание подписей к аудио с помощью дистилляции знаний на уровне кодировщика
Efficient Audio Captioning with Encoder-Level Knowledge Distillation

Jul 19

ByXuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, Mark D. Plumbley

Значительное улучшение было достигнуто в автоматической генерации подписей к аудио (AAC) с использованием последних моделей. Однако эти модели стали все более крупными по мере улучшения их производительности. В данной работе мы предлагаем рамочную концепцию дистилляции знаний (KD) для AAC. Наш анализ показывает, что в моделях AAC на основе кодировщика-декодировщика эффективнее дистиллировать знания в кодировщик, чем в декодировщик. Для этого мы включаем потерю дистилляции на уровне кодировщика в процесс обучения, дополнительно к стандартной обучающей потере и потере дистилляции на уровне последовательности. Мы исследуем два метода дистилляции на уровне кодировщика, основанных на потере среднеквадратичной ошибки (MSE) и контрастной потере соответственно. Экспериментальные результаты показывают, что контрастная дистилляция знаний более устойчива, чем дистилляция знаний на основе MSE, проявляя превосходную производительность в ситуациях с ограниченными данными. Используя только аудиоданные в процессе обучения в рамках KD, наша модель-ученик достигает конкурентоспособной производительности, с скоростью вывода, которая в 19 раз быстрее. Онлайн-демонстрация доступна по ссылке: \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}.

SparseCraft: Малообучаемая нейронная реконструкция через геометрическую линеаризацию, направляемую стереопсисом
SparseCraft: Few-Shot Neural Reconstruction through Stereopsis Guided Geometric Linearization

Jul 19

ByMae Younes, Amine Ouasfi, Adnane Boukhayma

Мы представляем новый подход к восстановлению трехмерной формы и видозависимого внешнего вида по нескольким цветным изображениям, обеспечивая эффективную трехмерную реконструкцию и синтез нового вида. Наш метод изучает неявное нейронное представление в форме знаковой функции расстояния (SDF) и поля радиации. Модель обучается постепенно через объемную рендеринг с помощью маршрута лучей и регуляризуется с помощью многообъектного стерео (MVS) без обучения. Ключевым моментом нашего вклада является новая стратегия обучения неявной нейронной функции формы, которая поощряет наше поле SDF быть как можно более линейным около уровня, тем самым устойчиво обучаясь к шуму, исходящему от сигналов надзора и регуляризации. Без использования каких-либо предварительно обученных априорных знаний наш метод, названный SparseCraft, достигает передовых результатов как в синтезе нового вида, так и в реконструкции из разреженных видов в стандартных бенчмарках, требуя менее 10 минут для обучения.

Ежедневные Исследовательские Статьи по ИИ

Ежедневно отобранные исследовательские статьи по ИИ с переводами

LazyLLM: Динамическое обрезание токенов для эффективного вывода LLM с длинным контекстом
LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

Jul 19

ByQichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi

Внутренняя согласованность и самоконтроль в больших языковых моделях: обзор
Internal Consistency and Self-Feedback in Large Language Models: A Survey

Jul 19

ByXun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li

EVLM: Эффективная модель видео-языкового взаимодействия для визуального понимания
EVLM: An Efficient Vision-Language Model for Visual Understanding

Jul 19

ByKaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang

Стабильное аудио открыто
Stable Audio Open

Jul 19

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

ChatQA 2: Преодоление разрыва собственных LLM в длинном контексте и RAG Возможности
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

Jul 19

ByPeng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

Qalam: Мультимодальная LLM для оптического распознавания арабских символов и почерка.
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

Jul 18

ByGagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed

VisFocus: Направляемые подсказками визионные кодировщики для плотного понимания документов без OCR.
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

Jul 17

ByOfir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha

Видение автономных вычислений: могут ли модели языков с большим объемом параметров сделать его реальностью?
The Vision of Autonomic Computing: Can LLMs Make It a Reality?

Jul 19

ByZhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

SciCode: Набор данных для оценки кодирования в научных исследованиях, подготовленный учеными
SciCode: A Research Coding Benchmark Curated by Scientists

Jul 18

Быстрые умножения матриц для квантованных LLM с таблицей поиска
Fast Matrix Multiplications for Lookup Table-Quantized LLMs

Jul 15

ByHan Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim

Безопасность Phi-3 после обучения: выравнивание языковых моделей с циклом "исправление-устранение"
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle

Jul 18

Генерация текста в естественной среде.
Visual Text Generation in the Wild

Jul 19

ByYuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang

Ускорение: улучшение точности восстановления с помощью разреженных автокодировщиков с функцией активации JumpReLU.
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

Jul 19

BySenthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda

PlacidDreamer: Продвижение гармонии в генерации текста в 3D.
PlacidDreamer: Advancing Harmony in Text-to-3D Generation

Jul 19

ByShuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia

Эффективное создание подписей к аудио с помощью дистилляции знаний на уровне кодировщика
Efficient Audio Captioning with Encoder-Level Knowledge Distillation

Jul 19

ByXuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, Mark D. Plumbley

SparseCraft: Малообучаемая нейронная реконструкция через геометрическую линеаризацию, направляемую стереопсисом
SparseCraft: Few-Shot Neural Reconstruction through Stereopsis Guided Geometric Linearization

Jul 19

ByMae Younes, Amine Ouasfi, Adnane Boukhayma