HuggingFace Daily Papers

Ежедневные статьи

Ежедневно отобранные исследовательские статьи по ИИ с переводами

Выберите дату

14 papers found

FinTral: Семейство мультимодальных финансовых больших языковых моделей уровня GPT-4
FinTral: A Family of GPT-4 Level Multimodal Financial Large Language Models

Feb 16

ByGagan Bhatia, El Moatez Billah Nagoudi, Hasan Cavusoglu, Muhammad Abdul-Mageed

Мы представляем FinTral — набор современных мультимодальных больших языковых моделей (LLM), созданных на основе модели Mistral-7b и адаптированных для финансового анализа. FinTral интегрирует текстовые, числовые, табличные и графические данные. Мы улучшили FinTral с помощью предметно-ориентированного предобучения, тонкой настройки на инструкциях и обучения с использованием RLAIF, используя обширную коллекцию текстовых и визуальных наборов данных, которые мы подготовили для этой работы. Мы также представляем расширенный бенчмарк, включающий девять задач и 25 наборов данных для оценки, в том числе анализ галлюцинаций в финансовой области. Наша модель FinTral, обученная с оптимизацией прямых предпочтений с использованием передовых инструментов и методов поиска, названная FinTral-DPO-T&R, демонстрирует исключительную производительность в условиях zero-shot. Она превосходит ChatGPT-3.5 во всех задачах и опережает GPT-4 в пяти из девяти задач, что знаменует значительный прогресс в области искусственного интеллекта для финансовых технологий. Мы также показываем, что FinTral обладает потенциалом для эффективного анализа в реальном времени и принятия решений в различных финансовых контекстах.

FiT: Гибкий Vision Transformer для диффузионной модели
FiT: Flexible Vision Transformer for Diffusion Model

Feb 19

ByZeyu Lu, Zidong Wang, Di Huang, Chengyue Wu, Xihui Liu, Wanli Ouyang, Lei Bai

Природа бесконечно свободна от ограничений по разрешению. В контексте этой реальности существующие диффузионные модели, такие как Diffusion Transformers, часто сталкиваются с трудностями при обработке изображений с разрешениями, выходящими за пределы их обучаемой области. Чтобы преодолеть это ограничение, мы представляем Flexible Vision Transformer (FiT) — архитектуру трансформера, специально разработанную для генерации изображений с неограниченными разрешениями и соотношениями сторон. В отличие от традиционных методов, которые воспринимают изображения как статичные сетки фиксированного разрешения, FiT концептуализирует изображения как последовательности динамически изменяемых токенов. Такой подход позволяет реализовать гибкую стратегию обучения, которая легко адаптируется к различным соотношениям сторон как на этапе обучения, так и на этапе вывода, способствуя обобщению по разрешению и устраняя искажения, вызванные обрезкой изображений. Благодаря тщательно настроенной структуре сети и интеграции методов экстраполяции, не требующих дополнительного обучения, FiT демонстрирует выдающуюся гибкость в генерации экстраполяции разрешений. Комплексные эксперименты подтверждают исключительную производительность FiT в широком диапазоне разрешений, демонстрируя его эффективность как в пределах, так и за пределами распределения разрешений, использованного при обучении. Репозиторий доступен по адресу https://github.com/whlzy/FiT.

AnyGPT: Унифицированная мультимодальная языковая модель с дискретным последовательностным моделированием
AnyGPT: Unified Multimodal LLM with Discrete Sequence Modeling

Feb 19

ByJun Zhan, Junqi Dai, Jiasheng Ye, Yunhua Zhou, Dong Zhang, Zhigeng Liu, Xin Zhang, Ruibin Yuan, Ge Zhang, Linyang Li, Hang Yan, Jie Fu, Tao Gui, Tianxiang Sun, Yugang Jiang, Xipeng Qiu

Мы представляем AnyGPT, универсальную мультимодальную языковую модель, которая использует дискретные представления для единой обработки различных модальностей, включая речь, текст, изображения и музыку. AnyGPT может быть стабильно обучена без каких-либо изменений в текущей архитектуре крупных языковых моделей (LLM) или парадигмах обучения. Вместо этого она полагается исключительно на предварительную обработку данных, что облегчает бесшовную интеграцию новых модальностей в LLM, аналогично добавлению новых языков. Мы создаем мультимодальный текстоцентричный набор данных для предварительного обучения мультимодального выравнивания. Используя генеративные модели, мы синтезируем первый крупномасштабный набор данных для универсальных мультимодальных инструкций. Он состоит из 108 тысяч примеров многоходовых диалогов, которые сложно переплетают различные модальности, что позволяет модели обрабатывать произвольные комбинации мультимодальных входных и выходных данных. Экспериментальные результаты показывают, что AnyGPT способна поддерживать универсальные мультимодальные диалоги, достигая производительности, сопоставимой со специализированными моделями во всех модальностях, что доказывает, что дискретные представления могут эффективно и удобно объединять несколько модальностей в рамках языковой модели. Демонстрации доступны по адресу: https://junzhan2000.github.io/AnyGPT.github.io/

Спекулятивное потоковое выполнение: Быстрый вывод в больших языковых моделях без вспомогательных моделей
Speculative Streaming: Fast LLM Inference without Auxiliary Models

Feb 16

ByNikhil Bhendawade, Irina Belousova, Qichen Fu, Henry Mason, Mohammad Rastegari, Mahyar Najibi

Спекулятивное декодирование — это известный метод ускорения вывода большой целевой языковой модели на основе предсказаний вспомогательной черновой модели. Хотя этот метод эффективен, в задачах, специфичных для конкретных приложений, он часто требует тонкой настройки как черновой, так и целевой моделей для достижения высоких показателей принятия предсказаний. С увеличением числа задач это приводит к значительному усложнению систем вывода. Мы предлагаем метод **Speculative Streaming** — подход к спекулятивному декодированию с использованием одной модели, который интегрирует процесс создания черновика в целевую модель, изменяя цель тонкой настройки с предсказания следующего токена на предсказание будущих n-грамм. Speculative Streaming ускоряет декодирование в 1,8–3,1 раза в различных задачах, таких как суммаризация, структурированные запросы и представление смысла, без ущерба для качества генерации. Кроме того, Speculative Streaming является параметрически эффективным. Он достигает сопоставимых или более высоких показателей ускорения по сравнению с архитектурами в стиле Medusa, используя при этом примерно в 10 000 раз меньше дополнительных параметров, что делает его подходящим для устройств с ограниченными ресурсами.

OneBit: В направлении сверхнизкобитных крупных языковых моделей
OneBit: Towards Extremely Low-bit Large Language Models

Feb 17

ByYuzhuang Xu, Xu Han, Zonghan Yang, Shuo Wang, Qingfu Zhu, Zhiyuan Liu, Weidong Liu, Wanxiang Che

Квантование моделей использует значения с низкой разрядностью для представления весовых матриц моделей, что является перспективным подходом для снижения как затрат на хранение, так и вычислительных затрат при развертывании высоко ожидаемых больших языковых моделей (LLM). Однако существующие методы квантования страдают от значительного ухудшения производительности при крайнем снижении разрядности и поэтому сосредоточены на использовании 4-битных или 8-битных значений для квантования моделей. В данной статье смело квантуются весовые матрицы LLM до 1 бита, прокладывая путь для развертывания LLM с крайне низкой разрядностью. Для достижения этой цели мы представляем 1-битную структуру квантования с учетом обучения (QAT) под названием OneBit, включающую новый метод представления 1-битных параметров для более эффективного квантования LLM, а также эффективный метод инициализации параметров на основе матричного разложения для улучшения скорости сходимости структуры QAT. Многочисленные экспериментальные результаты показывают, что OneBit демонстрирует хорошую производительность (не менее 83% от неквантованной производительности) с устойчивыми процессами обучения при использовании только 1-битных весовых матриц.

CoLLaVO: Мультимодальная модель больших языковых и визуальных данных Crayon
CoLLaVO: Crayon Large Language and Vision mOdel

Feb 17

ByByung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro

Замечательный успех крупных языковых моделей (LLM) и настройки по инструкциям стимулирует развитие моделей, объединяющих зрение и язык (VLM), в сторону универсальных моделей общего назначения. Однако остается неисследованным, обладают ли современные VLM действительно качественными возможностями понимания объектов на уровне изображения, определяемыми вопросами «какие объекты присутствуют на изображении?» или «какой объект соответствует указанной ограничивающей рамке?». Наши результаты показывают, что способности современных VLM к пониманию изображений тесно связаны с их производительностью на задачах, объединяющих зрение и язык (VL), в условиях zero-shot. Это свидетельствует о том, что приоритетное внимание к базовому пониманию изображений имеет решающее значение для успеха VLM в задачах VL. Для улучшения понимания объектов на уровне изображений мы предлагаем модель Crayon Large Language and Vision mOdel (CoLLaVO), которая включает настройку по инструкциям с использованием подсказок в виде цветных карандашей в качестве новой схемы визуальной настройки на основе панорамных цветовых карт. Кроме того, мы представляем стратегию обучения Dual QLoRA, которая позволяет сохранять понимание объектов на уровне изображения, не забывая его в процессе визуальной настройки по инструкциям, что приводит к значительному прорыву в производительности на множестве бенчмарков VL в условиях zero-shot.

Обучение более быстрому обучению на основе обратной связи от человека с использованием прогнозного управления языковой моделью
Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Feb 18

ByJacky Liang, Fei Xia, Wenhao Yu, Andy Zeng, Montserrat Gonzalez Arenas, Maria Attarian, Maria Bauza, Matthew Bennice, Alex Bewley, Adil Dostmohamed, Chuyuan Kelly Fu, Nimrod Gileadi, Marissa Giustina, Keerthana Gopalakrishnan, Leonard Hasenclever, Jan Humplik, Jasmine Hsu, Nikhil Joshi, Ben Jyenis, Chase Kew, Sean Kirmani, Tsang-Wei Edward Lee, Kuang-Huei Lee, Assaf Hurwitz Michaely, Joss Moore, Ken Oslund, Dushyant Rao, Allen Ren, Baruch Tabanpour, Quan Vuong, Ayzaan Wahid, Ted Xiao, Ying Xu, Vincent Zhuang, Peng Xu, Erik Frey, Ken Caluwaerts, Tingnan Zhang, Brian Ichter, Jonathan Tompson, Leila Takayama, Vincent Vanhoucke, Izhak Shafran, Maja Mataric, Dorsa Sadigh, Nicolas Heess, Kanishka Rao, Nik Stewart, Jie Tan, Carolina Parada

Крупные языковые модели (LLM) продемонстрировали широкий спектр возможностей, таких как написание кода для роботов на основе языковых команд, что позволяет неспециалистам управлять поведением роботов, корректировать его на основе обратной связи или комбинировать для выполнения новых задач. Однако эти возможности (основанные на обучении в контексте) ограничены краткосрочными взаимодействиями, где обратная связь пользователя остается актуальной только до тех пор, пока она укладывается в размер контекста LLM, и может быть забыта в более длительных взаимодействиях. В данной работе мы исследуем тонкую настройку LLM, генерирующих код для роботов, чтобы они запоминали свои контекстные взаимодействия и улучшали свою обучаемость, то есть насколько эффективно они адаптируются к человеческим вводам (измеряется средним количеством исправлений до того, как пользователь сочтет задачу успешной). Наше ключевое наблюдение заключается в том, что когда взаимодействия человека и робота формулируются как частично наблюдаемый марковский процесс принятия решений (где языковые вводы человека являются наблюдениями, а выходы кода робота — действиями), то обучение LLM завершать предыдущие взаимодействия можно рассматривать как обучение модели динамики переходов, которую можно комбинировать с классическими методами робототехники, такими как прогнозирующее управление на основе модели (MPC), для поиска более коротких путей к успеху. Это приводит к созданию Language Model Predictive Control (LMPC) — фреймворка, который тонко настраивает PaLM 2 для улучшения его обучаемости на 78 задачах для 5 различных реализаций роботов, повышая успешность обучения неспециалистов новым задачам на 26,9% и сокращая среднее количество человеческих исправлений с 2,4 до 1,9. Эксперименты показывают, что LMPC также создает сильных мета-обучающихся, повышая успешность обучения в контексте новым задачам для неизвестных реализаций роботов и API на 31,5%. Видео, код и демонстрации доступны по ссылке: https://robot-teaching.github.io/.

LongAgent: Масштабирование языковых моделей до контекста в 128k токенов с помощью мультиагентного взаимодействия
LongAgent: Scaling Language Models to 128k Context through Multi-Agent Collaboration

Feb 18

ByJun Zhao, Can Zu, Hao Xu, Yi Lu, Wei He, Yiwen Ding, Tao Gui, Qi Zhang, Xuanjing Huang

Крупные языковые модели (LLM) продемонстрировали впечатляющие результаты в понимании языка и выполнении сложных задач логического рассуждения. Однако LLM с длинными контекстными окнами печально известны своими высокими затратами на обучение и значительной задержкой при выводе. Даже самые передовые модели, такие как GPT-4 и Claude2, часто допускают ошибки при обработке входных данных объемом более 100 тысяч токенов — явление, известное как "потеря в середине". В данной статье мы предлагаем LongAgent — метод, основанный на многоагентном взаимодействии, который масштабирует LLM (например, LLaMA) до контекста в 128 тысяч токенов и демонстрирует потенциальное превосходство в обработке длинных текстов по сравнению с GPT-4. В LongAgent лидер отвечает за понимание намерений пользователя и направляет членов команды на извлечение информации из документов. Из-за галлюцинаций членов команды лидеру непросто получить точную информацию из ответов десятков или сотен участников. Для решения этой проблемы мы разработали механизм взаимодействия между членами команды, который устраняет конфликты в ответах, вызванные галлюцинациями, путем обмена информацией. Наши экспериментальные результаты показывают, что LongAgent предлагает перспективную альтернативу для обработки длинных текстов. Команда агентов, реализованная на основе LLaMA-7B, демонстрирует значительные улучшения в задачах, таких как поиск в текстах длиной 128 тысяч токенов и многошаговое ответы на вопросы, по сравнению с GPT-4.

Реформированное выравнивание
Reformatted Alignment

Feb 19

ByRun-Ze Fan, Xuefeng Li, Haoyang Zou, Junlong Li, Shwai He, Ethan Chern, Jiewen Hu, Pengfei Liu

Качество данных для тонкой настройки имеет решающее значение для согласования крупных языковых моделей (LLM) с человеческими ценностями. Современные методы улучшения качества данных либо требуют значительных трудозатрат, либо подвержены фактологическим ошибкам, вызванным галлюцинациями LLM. В данной статье исследуется повышение качества существующих инструктивных данных для лучшего согласования с человеческими ценностями, предлагая простой и эффективный подход под названием ReAlign, который преобразует ответы инструктивных данных в формат, лучше соответствующий заранее установленным критериям и собранным доказательствам. Этот подход минимизирует необходимость аннотирования человеком, галлюцинации и сложности масштабирования, оставаясь ортогональным существующим методам согласования. Экспериментально ReAlign значительно улучшает общую способность к согласованию, математическое мышление, фактологическую точность и читаемость LLM. Обнадеживающе, без введения дополнительных данных или сложных методов обучения, и лишь за счет преобразования ответа, способность LLaMA-2-13B к математическому мышлению на GSM8K улучшается с 46,77% до 56,63% по точности. Кроме того, всего 5% данных ReAlign дают 67% улучшение общей способности к согласованию, измеренной на наборе данных Alpaca. Эта работа подчеркивает необходимость дальнейших исследований в области науки и механистической интерпретируемости LLM. Мы сделали связанный код и данные общедоступными для поддержки будущих исследований по адресу https://github.com/GAIR-NLP/ReAlign.

GLoRe: Когда, где и как улучшить рассуждения языковых моделей с помощью глобальных и локальных уточнений
GLoRe: When, Where, and How to Improve LLM Reasoning via Global and Local Refinements

Feb 13

ByAlex Havrilla, Sharath Raparthy, Christoforus Nalmpantis, Jane Dwivedi-Yu, Maksym Zhuravinskyi, Eric Hambro, Roberta Railneau

Современные языковые модели демонстрируют впечатляющие способности к уточнению рассуждений в задачах по математике, естественным наукам или программированию. Однако недавние исследования показывают, что даже лучшие модели испытывают трудности с определением момента и места для уточнения без доступа к внешней обратной связи. Модели вознаграждения, основанные на результатах (Outcome-based Reward Models, ORMs), обученные предсказывать правильность конечного ответа и указывать, когда следует уточнять, предлагают удобное решение для принятия таких решений. Модели вознаграждения, основанные на процессе (Process Based Reward Models, PRMs), обученные предсказывать правильность промежуточных шагов, могут затем использоваться для указания места уточнения. Однако их обучение требует значительных затрат, включая обширные аннотации, созданные человеком. В данной работе мы предлагаем пошаговые ORMs (Stepwise ORMs, SORMs), которые обучаются исключительно на синтетических данных для аппроксимации ожидаемого будущего вознаграждения оптимальной политики или \(V^{\star}\). Более конкретно, SORMs обучаются предсказывать правильность конечного ответа при многократной выборке из текущей политики (в отличие от ORMs, где выборка происходит только один раз). Наши эксперименты показывают, что SORMs могут более точно обнаруживать ошибочные шаги рассуждений по сравнению с ORMs, что улучшает точность последующих уточнений. Затем мы обучаем глобальные модели уточнения, которые принимают на вход только вопрос и черновое решение, предсказывая исправленное решение, а также локальные модели уточнения, которые дополнительно принимают на вход критику, указывающую на место первой ошибки в рассуждениях. Мы генерируем обучающие данные для обеих моделей синтетически, повторно используя данные, применявшиеся для обучения SORM. Мы обнаруживаем, что комбинация глобальных и локальных уточнений с использованием ORM в качестве ранжировщика значительно превосходит каждый из подходов по отдельности, а также базовый подход с выборкой лучшего из трех образцов. С помощью этой стратегии мы можем повысить точность модели LLaMA-2 13B (уже дообученной с использованием обучения с подкреплением) на наборе данных GSM8K с 53\% до 65\% при жадной выборке.

DiLightNet: Точное управление освещением для генерации изображений на основе диффузионных моделей
DiLightNet: Fine-grained Lighting Control for Diffusion-based Image Generation

Feb 19

ByChong Zeng, Yue Dong, Pieter Peers, Youkang Kong, Hongzhi Wu, Xin Tong

В данной статье представлен новый метод для осуществления детализированного управления освещением в процессе генерации изображений на основе текстовых описаний с использованием диффузионных моделей. Хотя существующие диффузионные модели уже способны генерировать изображения при любых условиях освещения, без дополнительных указаний эти модели склонны связывать содержание изображения с освещением. Более того, текстовые запросы не обладают достаточной выразительной силой для описания детализированных настроек освещения. Чтобы предоставить создателю контента возможность детализированного управления освещением в процессе генерации изображений, мы дополняем текстовый запрос подробной информацией об освещении в виде радиационных подсказок, то есть визуализаций геометрии сцены с однородным каноническим материалом при целевом освещении. Однако геометрия сцены, необходимая для создания радиационных подсказок, неизвестна. Наше ключевое наблюдение заключается в том, что нам нужно лишь направлять процесс диффузии, поэтому точные радиационные подсказки не обязательны; достаточно лишь указать диффузионной модели правильное направление. На основе этого наблюдения мы представляем трехэтапный метод управления освещением в процессе генерации изображений. На первом этапе мы используем стандартную предобученную диффузионную модель для создания промежуточного изображения при неуправляемом освещении. Затем, на втором этапе, мы повторно синтезируем и уточняем объект переднего плана в сгенерированном изображении, передавая целевое освещение в усовершенствованную диффузионную модель, названную DiLightNet, с использованием радиационных подсказок, вычисленных на основе грубой формы объекта переднего плана, выведенной из промежуточного изображения. Чтобы сохранить детали текстуры, мы умножаем радиационные подсказки на нейронное кодирование промежуточного синтезированного изображения перед передачей в DiLightNet. Наконец, на третьем этапе мы повторно синтезируем фон, чтобы он соответствовал освещению на объекте переднего плана. Мы демонстрируем и проверяем нашу диффузионную модель с управляемым освещением на различных текстовых запросах и условиях освещения.

Бинарные сетки непрозрачности: захват тонких геометрических деталей для синтеза изображений на основе сеток
Binary Opacity Grids: Capturing Fine Geometric Detail for Mesh-Based View Synthesis

Feb 19

ByChristian Reiser, Stephan Garbin, Pratul P. Srinivasan, Dor Verbin, Richard Szeliski, Ben Mildenhall, Jonathan T. Barron, Peter Hedman, Andreas Geiger

Хотя алгоритмы синтеза видов на основе поверхностей привлекательны благодаря своим низким вычислительным требованиям, они часто испытывают трудности с воспроизведением тонких структур. В отличие от них, более ресурсоемкие методы, которые моделируют геометрию сцены как объемное поле плотности (например, NeRF), превосходно справляются с восстановлением мелких геометрических деталей. Однако поля плотности часто представляют геометрию в "размытом" виде, что затрудняет точное определение местоположения поверхности. В данной работе мы модифицируем поля плотности, чтобы стимулировать их сходимость к поверхностям, не жертвуя при этом способностью восстанавливать тонкие структуры. Во-первых, мы используем дискретное представление сетки непрозрачности вместо непрерывного поля плотности, что позволяет значениям непрозрачности скачкообразно изменяться от нуля до единицы на поверхности. Во-вторых, мы применяем антиалиасинг, отправляя несколько лучей на пиксель, что позволяет моделировать границы окклюзии и субпиксельные структуры без использования полупрозрачных вокселей. В-третьих, мы минимизируем бинарную энтропию значений непрозрачности, что облегчает извлечение геометрии поверхности, стимулируя бинаризацию значений непрозрачности к концу обучения. Наконец, мы разрабатываем стратегию создания сетки на основе слияния, за которой следует упрощение сетки и подгонка модели внешнего вида. Компактные сетки, созданные нашей моделью, могут быть визуализированы в реальном времени на мобильных устройствах и обеспечивают значительно более высокое качество синтеза видов по сравнению с существующими подходами на основе сеток.

Vision-Flan: Масштабирование задач с человеческой разметкой для настройки визуальных инструкций
Vision-Flan: Scaling Human-Labeled Tasks in Visual Instruction Tuning

Feb 18

ByZhiyang Xu, Chao Feng, Rulin Shao, Trevor Ashby, Ying Shen, Di Jin, Yu Cheng, Qifan Wang, Lifu Huang

Несмотря на впечатляющие возможности моделей, работающих с визуальными и языковыми данными (VLMs), в качестве универсальных визуальных ассистентов, в существующих рамках VLMs сохраняются две существенные проблемы: (1) недостаточное разнообразие задач на этапах предварительного обучения и настройки визуальных инструкций, и (2) ошибки аннотаций и смещения в данных для настройки инструкций, синтезированных GPT-4. Обе проблемы приводят к таким недостаткам, как низкая обобщаемость, галлюцинации и катастрофическое забывание. Для решения этих проблем мы создали Vision-Flan — наиболее разнообразный общедоступный набор данных для настройки визуальных инструкций, включающий 187 разнообразных задач и 1 664 261 примеров, взятых из академических наборов данных, причем каждая задача сопровождается инструкцией, написанной экспертом. Кроме того, мы предлагаем двухэтапную структуру настройки инструкций, в которой VLMs сначала донастраиваются на Vision-Flan, а затем дополнительно настраиваются на данных, синтезированных GPT-4. Мы обнаружили, что эта двухэтапная структура настройки значительно превосходит традиционную одноэтапную структуру настройки визуальных инструкций и достигает наилучших результатов на широком спектре многомодальных оценочных тестов. Наконец, мы провели углубленный анализ, чтобы понять настройку визуальных инструкций, и наши выводы показывают, что: (1) данные, синтезированные GPT-4, не существенно улучшают возможности VLMs, а скорее корректируют ответы модели в соответствии с предпочитаемыми человеком форматами; (2) минимальное количество (например, 1 000) данных, синтезированных GPT-4, может эффективно согласовать ответы VLMs с предпочтениями человека; (3) настройка визуальных инструкций в основном помогает крупным языковым моделям (LLMs) понимать визуальные особенности.

Расширение возможностей авторегрессивных моделей для генерации 3D-форм с учетом производительности и масштабируемости
Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability

Feb 19

ByXuelin Qian, Yu Wang, Simian Luo, Yinda Zhang, Ying Tai, Zhenyu Zhang, Chengjie Wang, Xiangyang Xue, Bo Zhao, Tiejun Huang, Yunsheng Wu, Yanwei Fu

Авторегрессионные модели достигли впечатляющих результатов в генерации 2D-изображений, моделируя совместные распределения в пространстве сетки. В данной работе мы расширяем авторегрессионные модели на 3D-области и стремимся к повышению способности генерации 3D-форм, одновременно улучшая их емкость и масштабируемость. Во-первых, мы используем ансамбль общедоступных 3D-наборов данных для облегчения обучения крупномасштабных моделей. Он состоит из обширной коллекции, включающей примерно 900 000 объектов, с множеством свойств, таких как меши, точки, воксели, рендеренные изображения и текстовые описания. Этот разнообразный размеченный набор данных, названный Objaverse-Mix, позволяет нашей модели обучаться на широком спектре вариаций объектов. Однако прямое применение 3D-авторегрессии сталкивается с критическими проблемами высоких вычислительных затрат на объемные сетки и неоднозначного порядка авторегрессии по измерениям сетки, что приводит к низкому качеству 3D-форм. Для решения этих проблем мы представляем новую архитектуру Argus3D, ориентированную на повышение емкости. Конкретно, наш подход вводит дискретное обучение представлений на основе латентного вектора вместо объемных сеток, что не только снижает вычислительные затраты, но и сохраняет важные геометрические детали, обучая совместные распределения в более управляемом порядке. Емкость условной генерации может быть реализована путем простого объединения различных условных входных данных с латентным вектором, таких как облака точек, категории, изображения и тексты. Кроме того, благодаря простоте архитектуры нашей модели, мы естественным образом масштабируем наш подход до более крупной модели с впечатляющими 3,6 миллиардами параметров, что дополнительно повышает качество универсальной 3D-генерации. Многочисленные эксперименты на четырех задачах генерации демонстрируют, что Argus3D способен синтезировать разнообразные и точные формы в различных категориях, достигая выдающихся результатов.

Обучение более быстрому обучению на основе обратной связи от человека с использованием прогнозного управления языковой моделью
Learning to Learn Faster from Human Feedback with Language Model Predictive Control

Feb 18