AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

바이츄안-옴니 기술 보고서
Baichuan-Omni Technical Report

Oct 11

ByYadong Li, Haoze Sun, Mingan Lin, Tianpeng Li, Guosheng Dong, Tao Zhang, Bowen Ding, Wei Song, Zhenglin Cheng, Yuqi Huo, Song Chen, Xu Li, Da Pan, Shusen Zhang, Xin Wu, Zheng Liang, Jun Liu, Tao Zhang, Keer Lu, Yaqi Zhao, Yanjun Shen, Fan Yang, Kaicheng Yu, Tao Lin, Jianhua Xu, Zenan Zhou, Weipeng Chen

GPT-4o의 중요한 다중 모달 기능과 상호 작용 경험은 실용적 응용 프로그램에서의 중요한 역할을 강조하지만 높은 성능의 오픈 소스 대응물이 부족합니다. 본 논문에서는 이미지, 비디오, 오디오 및 텍스트의 모달을 동시에 처리하고 분석하는 능력을 갖춘 최초의 오픈 소스 7B 다중 모달 대형 언어 모델인 Baichuan-Omni를 소개합니다. 이 모델은 고급 다중 모달 상호 작용 경험과 강력한 성능을 제공합니다. 우리는 7B 모델을 시작으로 하여 오디오, 이미지, 비디오 및 텍스트 모달을 효과적으로 처리할 수 있는 능력을 갖춘 언어 모델을 갖추기 위해 다중 모달 정렬 및 멀티태스크 파인튜닝의 두 단계를 거친 효과적인 다중 모달 훈련 스키마를 제안합니다. 다양한 옴니-모달 및 다중 모달 벤치마크에서 강력한 성능을 보여주며, 이 기여가 다중 모달 이해와 실시간 상호 작용을 발전시키는 오픈 소스 커뮤니티를 위한 경쟁력 있는 기준으로 기여하길 희망합니다.

Meissonic: 효율적인 고해상도 텍스트-이미지 합성을 위한 가려진 생성 트랜스포머의 부활
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Oct 10

ByJinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan

확산 모델인 Stable Diffusion과 같은 모델들은 시각 생성 분야에서 상당한 발전을 이루었지만, 그 패러다임은 자기회귀 언어 모델과 근본적으로 다르기 때문에 통합된 언어-시각 모델의 개발을 복잡하게 만듭니다. LlamaGen과 같은 최근 노력들은 이산 VQVAE 토큰을 사용하여 자기회귀 이미지 생성을 시도했지만, 많은 수의 토큰이 관련되어 있어 이 접근 방식은 비효율적이고 느립니다. 본 연구에서는 Meissonic을 제안하여 비자기회귀 마스킹된 이미지 모델링(MIM) 텍스트-이미지를 SDXL과 같은 최첨단 확산 모델과 유사한 수준으로 끌어올립니다. 포지셔널 인코딩 전략, 최적화된 샘플링 조건, 첨단 아키텍처 혁신들을 통합함으로써 Meissonic은 MIM의 성능과 효율성을 상당히 향상시킵니다. 또한 우수한 훈련 데이터를 활용하고, 인간의 선호도 점수에 의해 안내되는 마이크로 조건을 통합하며, 특징 압축 레이어를 사용하여 이미지의 충실도와 해상도를 더욱 향상시킵니다. 우리의 모델은 고품질, 고해상도 이미지를 생성하는 데 있어서 SDXL과 같은 기존 모델의 성능을 능가하는 경우가 많습니다. 포괄적인 실험은 Meissonic의 능력을 검증하며, 텍스트-이미지 합성 분야의 새로운 표준으로의 잠재력을 입증합니다. 우리는 1024x1024 해상도 이미지를 생성할 수 있는 모델 체크포인트를 공개합니다.

StructRAG: 추론 시 하이브리드 정보 구조화를 통해 LLMs의 지식 집약적 추론 강화
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Oct 11

ByZhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

검색 증강 생성 (RAG)은 많은 지식 기반 작업에서 대형 언어 모델 (LLM)을 효과적으로 향상시키는 주요 수단입니다. 그러나 기존의 RAG 방법은 지식 집약적 추론 작업에서 어려움을 겪습니다. 왜냐하면 이러한 작업에 필요한 유용한 정보가 나쁘게 흩어져 있기 때문입니다. 이 특성으로 인해 기존의 RAG 방법은 주요 정보를 정확하게 식별하고 이러한 노이즈가 있는 증강과 함께 전역 추론을 수행하는 데 어려움을 겪습니다. 본 논문에서는 지식 집약적 추론을 다룰 때 사람들이 원시 정보를 다양한 구조화된 지식으로 변환하는 인지 이론에 영감을 받아 작업에 최적의 구조 유형을 식별하고 이 구조화된 형식으로 원본 문서를 재구성하며 결과적인 구조를 기반으로 답변을 추론할 수 있는 새로운 프레임워크인 StructRAG을 제안합니다. 다양한 지식 집약적 작업을 통한 광범위한 실험 결과 StructRAG이 최첨단 성능을 달성하며 특히 어려운 시나리오에서 뛰어난 성과를 보여 복잡한 실제 응용 프로그램에서 LLM을 향상시키는 효과적인 솔루션으로의 잠재력을 입증합니다.

일반적인 전문가로부터 전문가로: 과제별 시각 지시 조정을 통한 비전 언어 모델의 적응
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Oct 9

ByYang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu

대형 비전 언어 모델(VLMs)은 대형 언어 모델과 비전 인코더를 결합하여 다양한 작업에서 유망성을 보여줍니다. 그러나 사전 훈련과 세부 튜닝 간의 도메인 갭으로 인해 특정 작업 응용에서 종종 성능이 부족합니다. 저희는 VITask라는 새로운 프레임워크를 소개합니다. 이는 작업별 모델(TSMs)을 통합하여 VLMs의 작업별 적응성을 향상시킵니다. VITask는 예시 프롬프팅(EP), 응답 분포 정렬(RDA) 및 대조적 응답 튜닝(CRT)이라는 세 가지 주요 전략을 활용하여 VLMs의 작업별 성능을 향상시킵니다. EP는 TSM 특징이 VLMs를 안내하도록 허용하며, RDA는 VLMs가 예시 프롬프팅된 모델로부터 학습하여 TSM 없이 추론 중에 적응할 수 있게 합니다. CRT는 올바른 이미지-응답 쌍의 순위를 더 최적화하여 원치 않는 응답을 생성하는 위험을 줄입니다. 9가지 영상 모달리티를 포함한 12가지 의료 진단 데이터셋에서의 실험 결과는 VITask가 바닐라 지시 조정된 VLMs와 TSMs보다 우수함을 보여주며, 두 모델의 보완적 특징을 효과적으로 통합하는 능력을 보여줍니다. 또한, VITask는 유연한 TSM 통합과 불완전한 지시에 대한 견고성과 같은 실용적 이점을 제공하여 작업별 VLM 튜닝에 다재다능하고 효율적인 솔루션이 됩니다. 저희 코드는 https://github.com/baiyang4/VITask에서 확인하실 수 있습니다.

효율적인 LLM 사전 훈련을 위한 다중 에이전트 협력 데이터 선택
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Oct 10

ByTianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He

대규모 언어 모델(LLM)의 사전 훈련 가속화를 위해 효율적인 데이터 선택은 중요합니다. 데이터 효율성을 향상시키기 위해 다양한 방법이 제안되었지만, 이러한 접근 방식 간의 본질적인 충돌에 대한 연구는 제한적입니다. LLM 사전 훈련을 위한 최적의 데이터 선택을 달성하기 위해 이 문제에 대처하기 위해 우리는 새로운 다중 에이전트 협력 데이터 선택 메커니즘을 제안합니다. 이 프레임워크에서 각 데이터 선택 방법은 독립적인 에이전트로 작용하며, 각 에이전트 콘솔은 LLM 훈련 과정 전체에서 모든 에이전트로부터 정보를 동적으로 통합하도록 설계되었습니다. 우리는 우리의 다중 에이전트 프레임워크를 평가하기 위해 광범위한 경험적 연구를 수행했습니다. 실험 결과는 우리의 방법이 데이터 효율성을 크게 향상시키고, LLM 훈련에서 수렴을 가속화하며, 다중 언어 모델 벤치마크에서 최첨단 방법에 비해 평균 성능 향상률이 10.5% 달성한다는 것을 보여줍니다.

기계적 순열성: 층 간 특징 일치
Mechanistic Permutability: Match Features Across Layers

Oct 10

ByNikita Balagansky, Ian Maksimov, Daniil Gavrilov

딥 신경망에서 특징이 계층별로 어떻게 진화하는지 이해하는 것은 기계적 해석 가능성에서의 근본적인 과제입니다. 특히 다의성과 특징 중첩 때문에 어렵습니다. 희소 오토인코더(SAEs)는 개별 계층에서 해석 가능한 특징을 추출하는 데 사용되었지만, 이러한 특징을 계층 간에 정렬하는 것은 여전히 열린 문제입니다. 본 논문에서는 SAE Match를 소개합니다. 이는 신경망의 서로 다른 계층 간에 SAE 특징을 정렬하기 위한 혁신적인 데이터 없는 방법입니다. 접근 방식은 SAE의 접힌 매개변수 사이의 평균 제곱 오차를 최소화하여 특징을 일치시키는 것을 포함합니다. 이 기술은 특징의 척도 차이를 고려하기 위해 활성화 임계값을 인코더와 디코더 가중치에 통합합니다. Gemma 2 언어 모델에서의 광범위한 실험을 통해, 우리의 방법이 효과적으로 계층 간의 특징 진화를 포착하며 특징 일치 품질을 향상시킨다는 것을 입증합니다. 또한 특징이 여러 계층에 걸쳐 지속되고 우리의 접근 방식이 계층 간에 숨겨진 상태를 근사할 수 있다는 것을 보여줍니다. 우리의 연구는 신경망에서 특징 역학을 이해하는 데 기여하며 기계적 해석 가능성 연구를 위한 새로운 도구를 제공합니다.

EvolveDirector: 대규모 Vision-Language 모델을 활용한 고급 텍스트-이미지 생성에 다가가다
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9

ByRui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou

최근 생성 모델의 발전은 놀라운 능력을 보여주었습니다. 그러나 대부분은 독점적인 고품질 데이터로 훈련되었으며 일부 모델은 매개변수를 숨기고 접근 가능한 응용 프로그래밍 인터페이스(API)만 제공하여 하류 작업에 대한 혜택을 제한합니다. 공개적으로 이용 가능한 자원을 활용하여 선진 모델과 유사한 텍스트-이미지 생성 모델을 훈련하는 가능성을 탐색하기 위해 EvolveDirector를 소개합니다. 이 프레임워크는 고급 모델과 상호 작용하여 공개 API를 통해 텍스트-이미지 데이터 쌍을 얻어 기본 모델을 훈련시킵니다. 광범위한 데이터로 실험한 결과, 고급 모델의 생성 능력을 근사할 수 있는 것으로 나타났습니다. 그러나 1천만 개 이상의 대규모 샘플이 필요합니다. 이는 시간, 계산 자원, 특히 유료 API 호출에 따른 비용이 상당히 발생합니다. 이 문제를 해결하기 위해 사전 훈련된 대형 비전-언어 모델(VLM)을 활용하여 기본 모델의 진화를 이끌어냅니다. VLM은 훈련 중에 기본 모델을 지속적으로 평가하고 차별화, 확장, 삭제 및 돌연변이 작업을 통해 훈련 데이터셋을 동적으로 업데이트하고 정제합니다. 실험 결과는 이 패러다임이 필요한 데이터 양을 크게 줄인다는 것을 보여줍니다. 더불어 여러 고급 모델에 접근할 때 EvolveDirector는 그들이 생성한 최상의 샘플을 선택하여 강력하고 균형 잡힌 능력을 학습할 수 있습니다. 최종 훈련된 Edgen 모델은 이러한 고급 모델을 능가하는 것으로 입증되었습니다. 코드와 모델 가중치는 https://github.com/showlab/EvolveDirector에서 이용할 수 있습니다.

슈퍼코렉트: 오류 주도 통찰을 활용한 언어 모델의 감독 및 교정
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

Oct 11

ByLing Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan

GPT-4, PaLM 및 LLaMA과 같은 대형 언어 모델(LLMs)은 다양한 추론 작업에서 상당한 개선을 보여주었습니다. 그러나 Llama-3-8B 및 DeepSeekMath-Base와 같은 작은 모델들은 여전히 복잡한 수학적 추론에 어려움을 겪고 있습니다. 이는 추론 오류를 효과적으로 식별하고 수정하지 못하기 때문입니다. 최근 반성 기반 방법은 자가 반성 및 자가 수정을 가능하게 함으로써 이러한 문제를 해결하려고 노력하고 있지만, 여전히 추론 단계에서의 오류를 독립적으로 감지하는 데 어려움을 겪고 있습니다. 이러한 제한을 극복하기 위해 우리는 SuperCorrect라는 새로운 이중 단계 프레임워크를 제안합니다. 이 프레임워크는 대형 교사 모델을 활용하여 작은 학생 모델의 추론 및 반성 프로세스를 감독하고 수정합니다. 첫 번째 단계에서는 교사 모델로부터 계층적인 고수준 및 상세한 사고 템플릿을 추출하여 학생 모델이 보다 세분화된 추론 사고를 유도하도록 안내합니다. 두 번째 단계에서는 교사의 수정 흔적을 따라 교육 중에 학생 모델의 자가 수정 능력을 향상시키기 위해 교모협력 직접 선호 최적화(DPO)를 도입합니다. 이 교모협력 DPO 접근 방식은 학생 모델이 교사 모델로부터의 오류 주도 통찰을 통해 효과적으로 잘못된 사고를 찾아 해결하도록 가르치며, 그 사고의 병목 현상을 깨고 어려운 문제에 대처하기 위한 새로운 기술과 지식을 습득하게 합니다. 광범위한 실험에서 우리의 우수성을 일관되게 입증합니다. 특히, SuperCorrect-7B 모델은 MATH/GSM8K 벤치마크에서 모든 7B 모델 중 새로운 SOTA 성능을 달성하며 강력한 DeepSeekMath-7B보다 7.8%/5.3%, Qwen2.5-Math-7B보다 15.1%/6.3% 우수한 성과를 보입니다. 코드: https://github.com/YangLing0818/SuperCorrect-llm

PositionID: LLMs는 명시적 위치 인식을 사용하여 길이를 제어하고 복사하고 붙여넣을 수 있습니다.
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

Oct 9

ByZekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

대형 언어 모델(Large Language Models, LLMs)은 역할 연기, 창의적 글쓰기, 수학적 추론 및 코딩을 포함한 다양한 영역에서 인상적인 능력을 보여줍니다. 이러한 발전에도 불구하고, LLMs는 여전히 길이 제어에 대한 도전에 직면하며, 토큰 수준의 작업과 엄격한 길이 제한이 있는 데이터에 대한 불충분한 훈련으로 인해 특정 길이 제약을 준수하지 못하는 경우가 많습니다. 우리는 이 문제를 위치 인식의 부족으로 파악하고, 이를 해결하기 위한 새로운 접근 방식인 PositionID Prompting 및 PositionID Fine-Tuning을 제안합니다. 이러한 방법은 모델이 생성 중에 텍스트 길이를 지속적으로 모니터링하고 관리할 수 있는 능력을 향상시킵니다. 게다가, 우리는 LLMs가 복사 및 붙여넣기 작업을 정확하게 수행할 수 있도록 하는 PositionID CP Prompting을 소개합니다. 더불어, 길이 제어 및 복사-붙여넣기 능력을 평가하기 위한 두 가지 벤치마크를 개발합니다. 실험 결과 우리의 방법이 모델이 길이 제약과 복사-붙여넣기 정확도를 크게 향상시키면서 응답 품질을 희생시키지 않음을 입증합니다.

의미 점수 증류 샘플링을 통한 구성적 텍스트-3D 생성
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Oct 11

ByLing Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang

텍스트 설명으로부터 고품질 3D 에셋을 생성하는 것은 컴퓨터 그래픽스 및 비전 연구에서 중요한 과제로 남아 있습니다. 3D 데이터의 부족으로 최신 접근 방식은 사전 훈련된 2D 확산 사전을 활용하며, 이는 Score Distillation Sampling (SDS)을 통해 최적화됩니다. 발전에도 불구하고, 여러 객체나 복잡한 상호 작용을 갖는 복잡한 3D 장면을 만드는 것은 여전히 어렵습니다. 이를 해결하기 위해 최근의 방법은 상자나 레이아웃 가이드를 통합했습니다. 그러나 이러한 레이아웃 가이드 구성 방법은 일반적으로 거칠고 표현력이 부족하기 때문에 세밀한 제어를 제공하는 데 어려움을 겪습니다. 이러한 도전 과제를 극복하기 위해 우리는 새로운 의미론적 임베딩을 통합한 새로운 SDS 접근 방식인 Semantic Score Distillation Sampling (SemanticSDS)을 소개합니다. 이 접근 방식은 서로 다른 렌더링 뷰 간 일관성을 유지하고 다양한 객체 및 부분을 명확히 구분하는 새로운 의미론적 임베딩을 통합합니다. 이러한 임베딩은 의미론적 맵으로 변환되어 영역별 SDS 프로세스를 안내함으로써 정확한 최적화와 구성 생성을 가능하게 합니다. 명시적 의미론적 가이드를 활용함으로써 우리의 방법은 기존 사전 훈련된 확산 모델의 구성 능력을 발휘하여, 특히 복잡한 객체와 장면에 대해 우수한 품질의 3D 콘텐츠 생성을 달성합니다. 실험 결과는 우리의 SemanticSDS 프레임워크가 최신 복잡한 3D 콘텐츠를 생성하는 데 매우 효과적임을 보여줍니다. 코드: https://github.com/YangLing0818/SemanticSDS-3D

개선된 첫 번째 토큰까지의 시간을 위한 KV 예측
KV Prediction for Improved Time to First Token

Oct 10

ByMaxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi

트랜스포머 기반 언어 모델의 추론은 프롬프트 처리 단계로 시작됩니다. 이 단계에서 모델은 첫 번째 출력 토큰을 생성하고 미래 생성 단계에 필요한 KV 캐시를 저장합니다. 이 프롬프트 처리 단계는 계산 비용이 많이 들 수 있으며, 프롬프트 길이나 배치 크기가 증가할 때 엣지 장치에서 10초 이상 소요될 수 있습니다. 이는 모델의 출력에 상당한 지연을 도입하여 사용자 경험을 저하시킵니다. 사전 훈련된 모델의 첫 번째 출력 생성에 소요되는 시간을 줄이기 위해, 우리는 KV 예측이라는 새로운 방법을 소개합니다. 우리의 방법에서는 작은 보조 모델을 사용하여 프롬프트를 처리하고 기본 모델이 사용하는 KV 캐시의 근사치를 생성합니다. 이 근사된 KV 캐시는 보조 모델을 다시 쿼리할 필요 없이 기본 모델과 함께 자기회귀 생성에 사용됩니다. 우리의 방법이 베이스라인과 비교했을 때 파레토-최적 효율성-정확도 트레이드오프를 보여준다는 것을 입증합니다. TriviaQA에서는 TTFT FLOPs 예산 범위에서 15%~50%의 상대적 정확도 향상을 보여줍니다. 또한, HumanEval 파이썬 코드 완성에서는 고정된 TTFT FLOPs 예산에서 최대 30%의 정확도 향상을 보여줍니다. 추가로, Apple M2 Pro CPU에서 모델을 벤치마킹하고 FLOPs의 개선이 하드웨어에서 TTFT 가속으로 변환되는 것을 입증합니다. 우리의 코드는 https://github.com/apple/corenet/tree/main/projects/kv-prediction 에서 공개됩니다.

생성하는 동안 사고하기: 계획된 노이즈 제거와 이산 확산
Think While You Generate: Discrete Diffusion with Planned Denoising

Oct 8

BySulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli

이산 확산은 표준 벤치마크에서 자가 회귀 모델을 능가하거나 근접하는 최첨단 성능을 달성했습니다. 본 연구에서는 이산 확산과 계획된 노이즈 제거(DDPD)를 소개합니다. 이는 생성 과정을 계획자와 노이즈 제거기 두 모델로 분리하는 혁신적인 프레임워크입니다. 추론 시에 계획자는 노이즈 제거가 필요한 가장 오염된 위치를 식별하여 다음에 어떤 위치를 먼저 정리할지 선택합니다. 이러한 계획 및 노이즈 제거 접근 방식은 최적 순서로 오염을 식별하고 제거함으로써 생성 중에 더 효율적인 재구성을 가능하게 합니다. DDPD는 전통적인 노이즈 제거 전용 마스크 확산 방법을 능가하여 text8, OpenWebText 및 ImageNet 256x256에서의 토큰 기반 생성을 포함한 언어 모델링 벤치마크에서 우수한 결과를 달성했습니다. 특히, 언어 모델링에서 DDPD는 생성적 퍼플렉서티 측면에서 확산 기반과 자가 회귀 방법 사이의 성능 차이를 크게 줄였습니다. 코드는 https://github.com/liusulin/DDPD에서 확인할 수 있습니다.

ZeroComp: 확산을 통한 이미지 본질로부터의 제로샷 객체 합성
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

Oct 10

ByZitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

우리는 훈련 중 짝지어진 합성 장면 이미지가 필요하지 않은 효과적인 제로샷 3D 객체 합성 접근 방식 ZeroComp을 제시합니다. 우리의 방법은 ControlNet을 활용하여 내재 이미지에서 조건을 주고, 안정적인 확산 모델과 결합하여 그 장면 사전을 활용하여 효과적인 렌더링 엔진으로 작동합니다. 훈련 중 ZeroComp은 기하학, 알베도, 그리고 마스크된 쉐이딩에 기반한 내재 이미지를 사용하며, 합성된 객체가 있는 장면과 없는 장면의 짝지어진 이미지가 필요하지 않습니다. 훈련을 마치면 가상 3D 객체를 장면에 매끄럽게 통합시켜 그림자를 조정하여 현실적인 합성물을 만들어냅니다. 우리는 고품질의 평가 데이터셋을 개발하였으며, ZeroComp이 양적 및 인간 인식 벤치마크에서 명시적 조명 추정 및 생성적 기법을 사용하는 방법을 능가함을 보여줍니다. 게다가, ZeroComp은 합성된 실내 데이터만을 사용하여 훈련되었을 때에도 실제 및 실외 이미지 합성에 확장되며, 이미지 합성에서의 효과를 보여줍니다.

I-Max: 사전 훈련된 정정된 플로우 트랜스포머의 해상도 잠재력을 최대화하는 프로젝트된 플로우
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

Oct 10

ByRuoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao

Rectified Flow Transformers (RFTs)는 우수한 학습 및 추론 효율성을 제공하여 확산 모델의 확장에 가장 적합한 방향으로 여겨질 수 있다. 그러나 생성 해상도의 발전은 데이터 품질과 학습 비용 때문에 비교적 느리게 이루어졌다. 튜닝 없는 해상도 추정은 대안으로 제시되었지만, 현재의 방법은 종종 생성 안정성을 감소시켜 실용적인 적용을 제한한다. 본 논문에서는 기존의 해상도 추정 방법을 검토하고 Text-to-Image RFTs의 해상도 잠재력을 극대화하기 위한 I-Max 프레임워크를 소개한다. I-Max의 특징은 다음과 같다: (i) 안정적인 추정을 위한 새로운 Projected Flow 전략 및 (ii) 고해상도로 모델 지식을 일반화하기 위한 고급 추론 도구. Lumina-Next-2K 및 Flux.1-dev와의 실험 결과는 I-Max가 해상도 추정에서 안정성을 향상시키는 능력을 보여주며, 이미지 세부 정보의 부각 및 아티팩트 수정을 가능케 하여 튜닝 없는 해상도 추정의 실용적 가치를 확인한다.

DA-Code: 대규모 언어 모델을 위한 에이전트 데이터 과학 코드 생성 벤치마크
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

Oct 9

ByYiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu

DA-Code은 에이전트 기반 데이터 과학 작업에서 LLMs를 평가하기 위해 특별히 설계된 코드 생성 벤치마크를 소개합니다. 이 벤치마크에는 세 가지 핵심 요소가 있습니다. 첫째, DA-Code 내의 작업들은 본질적으로 도전적이며 전통적인 코드 생성 작업과 구분되며, 기초 및 계획에 대한 고급 코딩 기술을 요구합니다. 둘째, DA-Code의 예시들은 모두 실제 다양한 데이터를 기반으로 하며, 다양한 복잡한 데이터 전처리 및 분석 작업을 다룹니다. 셋째, 모델이 작업을 해결하기 위해서는 복잡한 데이터 과학 프로그래밍 언어를 활용하여 복잡한 데이터 처리를 수행하고 답변을 도출해야 합니다. 우리는 실제 데이터 분석 시나리오와 확장 가능한 환경과 일치하는 벤치마크를 설정했습니다. 주석 작업자들은 평가의 정확성과 견고성을 보장하기 위해 평가 스위트를 면밀히 설계했습니다. 우리는 DA-Agent 베이스라인을 개발했습니다. 실험 결과, 베이스라인이 기존의 다른 프레임워크보다 성능이 우수하지만, 현재 최고의 LLMs를 사용해도 정확도가 30.5%에 불과하여 개선할 여지가 많이 남아 있음을 보여줍니다. 우리의 벤치마크는 https://da-code-bench.github.io에서 공개되어 있습니다.

GenARM: 시험 시간 정렬을 위한 자기 회귀 보상 모델을 활용한 보상 지도 생성
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

Oct 10

ByYuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh

대형 언어 모델(Large Language Models, LLMs)은 인상적인 능력을 보여주지만 인간의 선호와 조화를 이루어야 합니다. 기존의 훈련 시간 방법은 인간 선호 데이터셋을 사용하여 LLMs를 세밀하게 조정하지만 상당한 훈련 비용이 발생하며 다양한 사용자 선호를 처리하기 위해 반복적인 훈련이 필요합니다. 시험 시간 조정 방법은 훈련 없이 동결된 LLMs를 안내하기 위해 보상 모델(Reward Models, RMs)을 사용하여 이 문제에 대처합니다. 그러나 기존의 시험 시간 접근 방식은 완전한 응답을 평가하는 데 사용되는 경로 수준의 RMs에 의존하므로 부분 응답에서 다음 토큰 보상을 계산해야 하는 자기회귀 텍스트 생성에는 적합하지 않습니다. 이를 해결하기 위해 우리는 Autoregressive Reward Model을 활용하는 GenARM이라는 시험 시간 조정 방법을 소개합니다. 이는 효율적이고 효과적인 자기회귀 생성을 위해 설계된 새로운 보상 매개변수화인 Autoregressive Reward Model을 활용합니다. 이론적으로 이 매개변수화가 KL-정규화 강화 학습 프레임워크 내에서 기존 RMs가 달성 가능한 모든 분포로 동결된 LLMs를 안내할 수 있음을 증명합니다. 실험 결과는 GenARM이 이전의 시험 시간 조정 기준을 크게 능가하고 훈련 시간 방법의 성능과 일치함을 보여줍니다. 게다가 GenARM은 대형 LLMs를 작은 RMs와 조화시키는 효율적인 약한-강한 안내를 가능하게 하며, 더 큰 모델을 훈련하는 높은 비용 없이 다양한 사용자 선호에 대응할 수 있는 다중 목적 조정을 지원합니다.

간단한 전략: 계층화를 통한 언어 모델 생성 다양화
SimpleStrat: Diversifying Language Model Generation with Stratification

Oct 11

ByJustin Wong, Yury Orlovskiy, Michael Luo, Sanjit A. Seshia, Joseph E. Gonzalez

대규모 언어 모델(LLM)로부터 다양한 응답을 생성하는 것은 계획/탐색 및 합성 데이터 생성과 같은 응용 프로그램에 있어서 중요하며, 이러한 다양성은 세대 간에 구별되는 답변을 제공합니다. 이전 방법은 다양성을 증가시키기 위해 온도를 높이는 데 의존했습니다. 그러나 일반적인 믿음과는 달리, 이 접근 방식이 온도가 증가함에 따라 개별 세대의 품질을 낮추는 것뿐만 아니라, 모델의 다음 토큰 확률이 정답의 실제 분포와 유사해야만 한다는 것을 보여줍니다. 우리는, 모델 자체를 사용하여 공간을 계층으로 분할하는 대안적인 방법을 제안합니다. 추론 시, 무작위 계층이 선택되고 해당 계층 내에서 샘플이 추출됩니다. 다양성을 측정하기 위해, 우리는 다수의 동등하게 타당한 답변을 가진 미정의 질문 데이터 세트인 CoverageQA를 소개하고, 출력 분포와 유효한 정답의 균일 분포 사이의 KL 다이버전스를 측정하여 다양성을 평가합니다. 전용 모델에 대한 각 응답/해결책의 확률을 계산하는 것은 현실적이지 않기 때문에, 우리는 정답 솔루션에 대한 회수를 측정합니다. 우리의 평가 결과, SimpleStrat을 사용하면 GPT-4o 대비 0.05 더 높은 회수와 Llama 3 대비 평균 0.36의 KL 다이버전스 감소가 달성됨을 보여줍니다.

MiRAGeNews: 다중 모달 현실적 AI 생성 뉴스 탐지
MiRAGeNews: Multimodal Realistic AI-Generated News Detection

Oct 11

ByRunsheng Huang, Liam Dugan, Yue Yang, Chris Callison-Burch

염증성이거나 오도된 "가짜" 뉴스 콘텐츠의 확산이 최근 몇 년간 점점 더 흔해졌습니다. 동시에 AI 도구를 사용하여 상상할 수 있는 모든 장면을 묘사하는 사실적인 이미지를 생성하는 것이 이전보다 쉬워졌습니다. 이 두 가지를 결합한 AI 생성 가짜 뉴스 콘텐츠는 특히 강력하고 위험합니다. AI 생성 가짜 뉴스의 확산을 막기 위해, 우리는 MiRAGeNews 데이터셋을 제안합니다. 이 데이터셋은 최첨단 생성기로부터 얻은 12,500개의 고품질 실제 및 AI 생성 이미지-캡션 쌍으로 구성되어 있습니다. 우리는 이 데이터셋이 사람들에게 상당한 어려움을 제공한다는 것을 발견했습니다 (60% F-1) 그리고 최첨단 다중 모달 LLMs (< 24% F-1). 우리는 이 데이터셋을 사용하여 도메인 밖의 이미지 생성기 및 뉴스 발행인으로부터 얻은 이미지-캡션 쌍에 대해 최첨단 베이스라인보다 +5.1% F-1을 개선하는 다중 모달 탐지기(MiRAGe)를 훈련시켰습니다. 우리는 AI 생성 콘텐츠 탐지에 대한 향후 연구를 돕기 위해 우리의 코드와 데이터를 공개합니다.

멘토-KD: 작은 언어 모델을 더 나은 다단계 추론자로 만들기
Mentor-KD: Making Small Language Models Better Multi-step Reasoners

Oct 11

ByHojae Lee, Junho Kim, SangKeun Lee

대형 언어 모델 (LLMs)은 Chain-of-Thought (CoT) 프롬프팅을 활용하여 다양한 복잡한 작업에서 놀라운 성과를 보여주었습니다. 최근 연구에서는 LLM의 추론 능력을 전이시키는 지식 증류 (KD) 접근 방식, 즉 추론 증류를 제안했습니다. 이는 LLM 교사가 생성한 다단계 근거로 이루어진 언어 모델을 세밀하게 조정함으로써 LLM의 추론 능력을 전달합니다. 그러나 이들은 LLM 교사 모델로부터 충분하지 않은 증류 세트에 관한 두 가지 과제를 충분히 고려하지 못했습니다. 즉, 1) 데이터 품질과 2) 소프트 라벨 제공에 관한 것입니다. 본 논문에서는 앞서 언급한 과제를 해결하면서 LLM의 다단계 추론 능력을 작은 언어 모델로 효과적으로 증류하는 Mentor-KD를 제안합니다. 구체적으로, 우리는 중간 크기의 과제별 세밀하게 조정된 모델인 멘토를 활용하여 추가 CoT 주석을 증가시키고 추론 증류 중에 학생 모델에 대한 소프트 라벨을 제공합니다. 우리는 다양한 모델 및 복잡한 추론 작업에서 Mentor-KD의 효과를 확인하기 위해 포괄적인 실험을 수행합니다.

Synth-SONAR: 이중 확산 모델과 GPT 프롬프팅을 통한 향상된 다양성과 현실감을 갖춘 소나 이미지 합성
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting

Oct 11

ByPurushothaman Natarajan, Kamal Basha, Athira Nambiar

음파 이미지 합성은 수중 탐사, 해양 생물학 및 방어 분야의 응용 프로그램을 발전시키는 데 중요합니다. 기존 방법은 종종 음파 센서를 사용하여 방대하고 비용이 많이 드는 데이터 수집에 의존하며, 데이터 품질과 다양성을 위협합니다. 이 연구는 이러한 제한을 극복하기 위해 확산 모델과 GPT 프롬프팅을 활용한 새로운 음파 이미지 합성 프레임워크인 Synth-SONAR을 제안합니다. Synth-SONAR의 주요 혁신점은 세 가지입니다. 첫째, 생성적 AI 기반 스타일 주입 기술을 통합하여 공개적으로 이용 가능한 실제/모의 데이터와 함께 사용함으로써 음파 연구를 위한 가장 큰 음파 데이터 코퍼스 중 하나를 생성합니다. 둘째, 이중 텍스트 조건화 음파 확산 모델 계층은 향상된 품질과 다양성을 갖는 굵고 세밀한 음파 이미지를 합성합니다. 셋째, 고수준(굵은) 및 저수준(세부적) 텍스트 기반 음파 생성 방법은 시각 언어 모델(VLMs)과 GPT 프롬프팅에서 제공되는 고급 의미 정보를 활용합니다. 추론 중에 이 방법은 텍스트 프롬프트로부터 다양하고 현실적인 음파 이미지를 생성하여 텍스트 설명과 음파 이미지 생성 사이의 간극을 줄입니다. 이는 우리의 최고 지식으로는 음파 이미지에 GPT 프롬프팅을 적용한 것으로, Synth-SONAR은 고품질의 합성 음파 데이터셋을 생성하여 그들의 다양성과 현실성을 크게 향상시킵니다. Synth-SONAR은 고품질의 합성 음파 데이터셋을 생성하는 데 최신 기술 결과를 달성합니다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

바이츄안-옴니 기술 보고서
Baichuan-Omni Technical Report

Oct 11

Meissonic: 효율적인 고해상도 텍스트-이미지 합성을 위한 가려진 생성 트랜스포머의 부활
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis

Oct 10

ByJinbin Bai, Tian Ye, Wei Chow, Enxin Song, Qing-Guo Chen, Xiangtai Li, Zhen Dong, Lei Zhu, Shuicheng Yan

StructRAG: 추론 시 하이브리드 정보 구조화를 통해 LLMs의 지식 집약적 추론 강화
StructRAG: Boosting Knowledge Intensive Reasoning of LLMs via Inference-time Hybrid Information Structurization

Oct 11

ByZhuoqun Li, Xuanang Chen, Haiyang Yu, Hongyu Lin, Yaojie Lu, Qiaoyu Tang, Fei Huang, Xianpei Han, Le Sun, Yongbin Li

일반적인 전문가로부터 전문가로: 과제별 시각 지시 조정을 통한 비전 언어 모델의 적응
From Generalist to Specialist: Adapting Vision Language Models via Task-Specific Visual Instruction Tuning

Oct 9

ByYang Bai, Yang Zhou, Jun Zhou, Rick Siow Mong Goh, Daniel Shu Wei Ting, Yong Liu

효율적인 LLM 사전 훈련을 위한 다중 에이전트 협력 데이터 선택
Multi-Agent Collaborative Data Selection for Efficient LLM Pretraining

Oct 10

ByTianyi Bai, Ling Yang, Zhen Hao Wong, Jiahui Peng, Xinlin Zhuang, Chi Zhang, Lijun Wu, Qiu Jiantao, Wentao Zhang, Binhang Yuan, Conghui He

기계적 순열성: 층 간 특징 일치
Mechanistic Permutability: Match Features Across Layers

Oct 10

ByNikita Balagansky, Ian Maksimov, Daniil Gavrilov

EvolveDirector: 대규모 Vision-Language 모델을 활용한 고급 텍스트-이미지 생성에 다가가다
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models

Oct 9

ByRui Zhao, Hangjie Yuan, Yujie Wei, Shiwei Zhang, Yuchao Gu, Lingmin Ran, Xiang Wang, Zhangjie Wu, Junhao Zhang, Yingya Zhang, Mike Zheng Shou

슈퍼코렉트: 오류 주도 통찰을 활용한 언어 모델의 감독 및 교정
SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights

Oct 11

ByLing Yang, Zhaochen Yu, Tianjun Zhang, Minkai Xu, Joseph E. Gonzalez, Bin Cui, Shuicheng Yan

PositionID: LLMs는 명시적 위치 인식을 사용하여 길이를 제어하고 복사하고 붙여넣을 수 있습니다.
PositionID: LLMs can Control Lengths, Copy and Paste with Explicit Positional Awareness

Oct 9

ByZekun Wang, Feiyu Duan, Yibo Zhang, Wangchunshu Zhou, Ke Xu, Wenhao Huang, Jie Fu

의미 점수 증류 샘플링을 통한 구성적 텍스트-3D 생성
Semantic Score Distillation Sampling for Compositional Text-to-3D Generation

Oct 11

ByLing Yang, Zixiang Zhang, Junlin Han, Bohan Zeng, Runjia Li, Philip Torr, Wentao Zhang

개선된 첫 번째 토큰까지의 시간을 위한 KV 예측
KV Prediction for Improved Time to First Token

Oct 10

ByMaxwell Horton, Qingqing Cao, Chenfan Sun, Yanzi Jin, Sachin Mehta, Mohammad Rastegari, Moin Nabi

생성하는 동안 사고하기: 계획된 노이즈 제거와 이산 확산
Think While You Generate: Discrete Diffusion with Planned Denoising

Oct 8

BySulin Liu, Juno Nam, Andrew Campbell, Hannes Stärk, Yilun Xu, Tommi Jaakkola, Rafael Gómez-Bombarelli

ZeroComp: 확산을 통한 이미지 본질로부터의 제로샷 객체 합성
ZeroComp: Zero-shot Object Compositing from Image Intrinsics via Diffusion

Oct 10

ByZitian Zhang, Frédéric Fortier-Chouinard, Mathieu Garon, Anand Bhattad, Jean-François Lalonde

I-Max: 사전 훈련된 정정된 플로우 트랜스포머의 해상도 잠재력을 최대화하는 프로젝트된 플로우
I-Max: Maximize the Resolution Potential of Pre-trained Rectified Flow Transformers with Projected Flow

Oct 10

ByRuoyi Du, Dongyang Liu, Le Zhuo, Qin Qi, Hongsheng Li, Zhanyu Ma, Peng Gao

DA-Code: 대규모 언어 모델을 위한 에이전트 데이터 과학 코드 생성 벤치마크
DA-Code: Agent Data Science Code Generation Benchmark for Large Language Models

Oct 9

ByYiming Huang, Jianwen Luo, Yan Yu, Yitong Zhang, Fangyu Lei, Yifan Wei, Shizhu He, Lifu Huang, Xiao Liu, Jun Zhao, Kang Liu

GenARM: 시험 시간 정렬을 위한 자기 회귀 보상 모델을 활용한 보상 지도 생성
GenARM: Reward Guided Generation with Autoregressive Reward Model for Test-time Alignment

Oct 10

ByYuancheng Xu, Udari Madhushani Sehwag, Alec Koppel, Sicheng Zhu, Bang An, Furong Huang, Sumitra Ganesh

Synth-SONAR: 이중 확산 모델과 GPT 프롬프팅을 통한 향상된 다양성과 현실감을 갖춘 소나 이미지 합성
Synth-SONAR: Sonar Image Synthesis with Enhanced Diversity and Realism via Dual Diffusion Models and GPT Prompting

Oct 11

ByPurushothaman Natarajan, Kamal Basha, Athira Nambiar