Ежедневно отобранные исследовательские статьи по ИИ с переводами
Данная статья исследует посттренировочные модели больших языковых моделей (Large Language Models, LLM), используя обратную связь предпочтений от мощного оракула для помощи модели в итеративном улучшении самой себя. Типичный подход к посттренировке LLM включает в себя обучение с подкреплением на основе обратной связи от человека (Reinforcement Learning from Human Feedback, RLHF), который традиционно разделяет обучение наград и последующую оптимизацию политики. Однако такой подход максимизации наград ограничен характером "точечных" наград (например, модель Брэдли-Терри), что не позволяет выразить сложные интранзитивные или циклические предпочтения. В то время как прогресс в области RLHF показывает, что обучение наград и оптимизация политики могут быть объединены в единую контрастную цель для стабильности, они все еще остаются привязанными к каркасу максимизации наград. Недавно новая волна исследований обходит предположения о максимизации наград в пользу прямой оптимизации "парных" или общих предпочтений. В данной статье мы представляем прямую оптимизацию Нэша (Direct Nash Optimization, DNO), доказуемый и масштабируемый алгоритм, который сочетает в себе простоту и стабильность контрастного обучения с теоретической общностью при оптимизации общих предпочтений. Поскольку DNO является пакетным алгоритмом с онлайн-обучением, использующим целевую функцию на основе регрессии, его реализация проста и эффективна. Более того, DNO обеспечивает монотонное улучшение на протяжении итераций, что помогает ему улучшаться даже по сравнению с сильным учителем (например, GPT-4). В наших экспериментах полученная модель Orca-2.5 с 7 миллиардами параметров, выровненная с помощью DNO, достигает передового показателя победной доли в 33% против GPT-4-Turbo на AlpacaEval 2.0 (даже после коррекции на длину ответа), абсолютный прирост составляет 26% (с 7% до 33%) по сравнению с исходной моделью. Она превосходит модели с гораздо большим количеством параметров, включая Mistral Large, Self-Rewarding LM (70 миллиардов параметров) и более старые версии GPT-4.
Языковые модели редко показывают плодотворные ошибки во время обучения. Затем они испытывают трудности в просмотре за пределами следующего токена, страдая от нарастания ошибок и затрудняясь предсказать последствия своих действий на несколько шагов вперед. В данной статье мы показываем, как языковые модели могут быть обучены к поиску, представляя процесс поиска на языке как сплошную строку - поток поиска (SoS). Мы предлагаем объединенный язык для поиска, который охватывает ряд различных символьных стратегий поиска. Мы демонстрируем наш подход, используя простую, но сложную игру Countdown, где целью является комбинирование входных чисел с арифметическими операциями для достижения целевого числа. Мы предварительно обучаем языковую модель на основе трансформера с нуля на наборе данных потоков поиска, сгенерированных эвристическими решателями. Мы обнаруживаем, что предварительное обучение SoS увеличивает точность поиска на 25% по сравнению с моделями, обученными предсказывать только оптимальную траекторию поиска. Затем мы донастраиваем эту модель двумя методами улучшения политики: Advantage-Induced Policy Alignment (APA) и Self-Taught Reasoner (STaR). Доработанные модели SoS решают 36% ранее нерешенных проблем, включая проблемы, которые не могут быть решены ни одним из эвристических решателей. Наши результаты показывают, что языковые модели могут научиться решать проблемы с помощью поиска, самосовершенствоваться для гибкого использования различных стратегий поиска и, возможно, открывать новые.
Подготовленные путем веб-сканирования наборы данных для предварительного обучения лежат в основе впечатляющей "нулевой" оценочной производительности мультимодельных моделей, таких как CLIP для классификации/поиска и Stable-Diffusion для генерации изображений. Однако неясно, насколько значимо понятие "нулевой" обобщения для таких мультимодельных моделей, поскольку неизвестно, насколько их наборы данных для предварительного обучения охватывают целевые концепции, нацеленные на "нулевую" оценку. В данной работе мы задаем вопрос: как производительность мультимодельных моделей на целевых концепциях зависит от частоты этих концепций в их наборах данных для предварительного обучения? Мы всесторонне исследуем этот вопрос на 34 моделях и пяти стандартных наборах данных для предварительного обучения (CC-3M, CC-12M, YFCC-15M, LAION-400M, LAION-Aesthetics), генерируя более 300 ГБ данных. Мы последовательно обнаруживаем, что, далеко не проявляя "нулевое" обобщение, мультимодельные модели требуют экспоненциально больше данных для достижения линейного улучшения в производительности на целевых концепциях "нулевого" обобщения, следуя тенденции логарифмического линейного масштабирования, требующей многообразия образцов. Эта тенденция сохраняется даже при контроле за сходством на уровне образцов между наборами данных для предварительного обучения и целевыми наборами данных, и при тестировании на чисто синтетических распределениях данных. Более того, после тестирования моделей на длиннохвостых данных, выбранных на основе нашего анализа, мы демонстрируем, что мультимодельные модели в целом показывают плохие результаты. Мы предоставляем этот тестовый набор длинных хвостов в качестве бенчмарка "Let it Wag!" для дальнейших исследований в этом направлении. В целом, наше исследование раскрывает экспоненциальную потребность в обучающих данных, что подразумевает, что ключ к возможностям "нулевого" обобщения в рамках парадигм обучения на большом масштабе еще предстоит найти.
Большие языковые модели (LLM) стимулировали многие задачи интеллектуальных агентов, такие как навигация по веб-страницам, но большинство существующих агентов далеки от удовлетворительной производительности на реальных веб-страницах из-за трех факторов: (1) многообразие действий на веб-страницах, (2) объем HTML-текста, превышающий возможности обработки модели, и (3) сложность принятия решений из-за открытой природы веб-среды. С учетом этого вызова мы разрабатываем AutoWebGLM, автоматизированный агент для навигации по вебу, превосходящий GPT-4, построенный на основе ChatGLM3-6B. Вдохновленные образцами человеческого просмотра, мы разрабатываем алгоритм упрощения HTML для представления веб-страниц, кратко сохраняя важную информацию. Мы используем гибридный метод человека и искусственного интеллекта для создания данных о просмотре веб-страниц для курсы обучения. Затем мы инициируем модель обучением с подкреплением и отбором отказов, чтобы дополнительно облегчить понимание веб-страниц, операции браузера и эффективное разбиение задач самой собой. Для тестирования мы создаем двуязычный бенчмарк - AutoWebBench - для задач навигации по реальным веб-страницам. Мы оцениваем AutoWebGLM на различных бенчмарках навигации по вебу, выявляя его улучшения, но также подлежащие решению вызовы в реальных средах. Связанный код, модель и данные будут опубликованы на https://github.com/THUDM/AutoWebGLM.
Недавние достижения в области наборов данных для настройки инструкций в основном сосредоточены на конкретных задачах, таких как математическое или логическое рассуждение. Существует значительный пробел в данных, предназначенных для выравнивания языковых моделей для поддержания актуальности темы в разговорах - критического аспекта для развертывания чат-ботов в производство. Мы представляем набор данных CantTalkAboutThis, чтобы помочь языковым моделям оставаться сосредоточенными на обсуждаемой теме во время задачно-ориентированных взаимодействий. Он состоит из синтетических диалогов по широкому спектру тем разговоров из различных областей. Эти диалоги пересекаются с отвлекающими ответами, которые намеренно отвлекают чат-бота от заранее определенной темы. Настройка языковых моделей на этом наборе данных помогает им стать устойчивыми к отклонению от назначенной роли и улучшает их способность поддерживать тематическую связность по сравнению с общими языковыми моделями, настроенными на инструкции, такими как GPT-4-turbo и Mixtral-Instruct. Кроме того, предварительные наблюдения показывают, что обучение моделей на этом наборе данных также улучшает их производительность на задачах следования инструкциям с тонкой настройкой.
Люди полагаются на социальные навыки, такие как разрешение конфликтов, для эффективного общения и процветания как на работе, так и в личной жизни. Однако практические среды для развития социальных навыков обычно недоступны для большинства людей. Как сделать тренировку социальных навыков более доступной, удобной и привлекательной? Основываясь на междисциплинарных исследованиях в области коммуникации и психологии, данная перспективная статья выявляет барьеры социальных навыков для вхождения в специализированные области. Затем мы представляем решение, которое использует большие языковые модели для тренировки социальных навыков через общий фреймворк. Наш партнер по искусственному интеллекту, фреймворк AI Mentor, объединяет опытное обучение с реалистичной практикой и индивидуальной обратной связью. Эта работа в конечном итоге призывает к междисциплинарному инновационному подходу для решения более широких вопросов развития рабочей силы и социального равенства.
Обучение с подкреплением (RL) улучшило направленную генерацию изображений с помощью моделей диффузии путем прямой оптимизации вознаграждений, которые учитывают качество изображения, эстетику и способность следовать инструкциям. Однако полученные генеративные политики наследуют тот же итеративный процесс выборки моделей диффузии, который замедляет процесс генерации. Для преодоления этого ограничения модели согласованности предложили изучение нового класса генеративных моделей, которые прямо отображают шум на данные, что позволяет модели генерировать изображение всего за одну итерацию выборки. В данной работе для оптимизации генеративных моделей текст-изображение для заданных задач вознаграждения и обеспечения быстрого обучения и вывода мы предлагаем фреймворк для донастройки моделей согласованности с помощью RL. Наш фреймворк, названный Обучение с подкреплением для модели согласованности (RLCM), описывает итеративный процесс вывода модели согласованности как процедуру RL. RLCM улучшает возможности генерации текста в изображение по сравнению с RL донастроенными моделями диффузии и обменивает вычисления во время вывода на качество выборки. Экспериментально мы показываем, что RLCM может адаптировать модели согласованности текста в изображение к целям, которые сложно выразить с помощью подсказок, таких как сжимаемость изображения, и те, которые происходят от обратной связи человека, таких как эстетическое качество. По сравнению с RL донастроенными моделями диффузии, RLCM обучается значительно быстрее, улучшает качество генерации, измеренное по целям вознаграждения, и ускоряет процедуру вывода, генерируя изображения высокого качества всего за два шага вывода. Наш код доступен по адресу https://rlcm.owenoertell.com
В данном исследовании мы представляем CT-LLM, 2B большую языковую модель (LLM), которая демонстрирует переломное смещение в сторону приоритета китайского языка в развитии LLM. Уникально начатая с нуля, CT-LLM отличается от традиционной методологии в основном за счет включения китайских текстовых данных, используя обширный корпус из 1,200 миллиарда токенов, включая 800 миллиардов китайских токенов, 300 миллиардов английских токенов и 100 миллиардов токенов кода. Этот стратегический состав облегчает исключительную профессиональность модели в понимании и обработке китайского языка, способность, дополнительно улучшенная методами выравнивания. Проявляя выдающуюся производительность на CHC-Bench, CT-LLM выделяется в задачах на китайском языке и демонстрирует свою искусность на английском языке через SFT. Это исследование бросает вызов преобладающей парадигме обучения LLM в основном на английских корпусах, а затем их адаптации к другим языкам, расширяя горизонты методологий обучения LLM. Публикуя в открытом доступе полный процесс обучения китайской LLM, включая подробную процедуру обработки данных с полученным массивным соответствующим предварительным обучением китайского корпуса (MAP-CC), тщательно подобранный междисциплинарный китайский трудный бенчмарк (CHC-Bench) и 2B-размерную китайскую крошечную LLM (CT-LLM), мы стремимся способствовать дальнейшему исследованию и инновациям как в академии, так и в индустрии, укладывая путь для более инклюзивных и универсальных языковых моделей.
В данной статье мы рассматриваем общие источники ошибок для трехмерного гауссовского сглаживания (3DGS), включая размытие, несовершенные позы камеры и несоответствия цветов, с целью улучшения его устойчивости для практических приложений, таких как восстановление из снимков, сделанных на мобильный телефон. Нашим основным вкладом является моделирование движущегося размытия как гауссовского распределения по позам камеры, что позволяет нам решать задачи как уточнения позы камеры, так и коррекции движущегося размытия единым способом. Кроме того, мы предлагаем механизмы компенсации дефокусного размытия и решения проблем с несоответствиями цветов, вызванными окружающим светом, тенью или факторами, связанными с камерой, такими как изменяющиеся настройки баланса белого. Наши предложенные решения интегрируются бесшовно с формулировкой 3DGS, сохраняя ее преимущества в плане эффективности обучения и скорости визуализации. Мы экспериментально подтверждаем наш вклад на соответствующих наборах данных, включая Scannet++ и Deblur-NeRF, достигая результатов, соответствующих современному уровню, и, таким образом, последовательно улучшая результаты по сравнению с соответствующими базовыми вариантами.
Многомодальная семантическая сегментация значительно улучшает восприятие и понимание сцены искусственными интеллектами, особенно в условиях неблагоприятной освещенности или переосвещенности. Использование дополнительных модальностей (X-модальность), таких как тепловое и глубина в дополнение к традиционному RGB, предоставляет дополнительную информацию, обеспечивая более надежную и устойчивую сегментацию. В данной работе мы представляем Sigma, сеть Siamese Mamba для многомодальной семантической сегментации, использующую модель Состояния Пространства Структурированного Выбора, Mamba. В отличие от традиционных методов, основанных на CNN, с их ограниченными локальными рецептивными полями, или Vision Transformers (ViTs), которые предлагают глобальные рецептивные поля за счет квадратичной сложности, наша модель достигает охвата глобальных рецептивных полей с линейной сложностью. Применяя Siamese энкодер и инновационный механизм слияния Mamba, мы эффективно выбираем важную информацию из различных модальностей. Затем разрабатывается декодер для улучшения возможности моделирования по каналам. Наш метод, Sigma, тщательно оценивается на задачах сегментации RGB-тепловое и RGB-глубина, демонстрируя его превосходство и отмечая первое успешное применение Моделей Пространства Состояний (SSM) в задачах многомодального восприятия. Код доступен по ссылке https://github.com/zifuwan/Sigma.