AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

LazyLLM: 효율적인 장문 맥락 LLM 추론을 위한 동적 토큰 프루닝
LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

Jul 19

ByQichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi

트랜스포머 기반 대형 언어 모델의 추론 과정은 두 가지 순차적 단계로 구성됩니다: 1) 프롬프트의 KV 캐시를 계산하고 첫 번째 토큰을 생성하는 프리필링(prefilling) 단계, 2) 이후 토큰을 생성하는 디코딩(decoding) 단계. 긴 프롬프트의 경우, 프리필링 단계에서 모든 토큰에 대한 KV 캐시를 계산해야 하므로 첫 번째 토큰 생성에 필요한 시간이 크게 증가할 수 있습니다. 결과적으로 프리필링 단계가 생성 과정의 병목 현상이 될 수 있습니다. 첫 번째 토큰 생성에 모든 프롬프트 토큰이 필수적인지에 대한 의문이 남아 있습니다. 이를 해결하기 위해, 우리는 LazyLLM이라는 새로운 방법을 제안합니다. 이 방법은 프리필링 및 디코딩 단계에서 다음 토큰 예측에 중요한 토큰에 대한 KV를 선택적으로 계산합니다. 프롬프트를 한 번에 정적으로 제거하는 기존의 가지치기(pruning) 접근법과 달리, LazyLLM은 언어 모델이 이전 단계에서 제거되었을지라도 다양한 생성 단계에서 컨텍스트의 다른 토큰 하위 집합을 동적으로 선택할 수 있도록 합니다. 다양한 작업에 걸친 표준 데이터셋에서의 광범위한 실험을 통해 LazyLLM이 기존 언어 모델에 원활하게 통합되어 미세 조정 없이도 생성 속도를 크게 가속할 수 있는 일반적인 방법임을 입증했습니다. 예를 들어, 다중 문서 질의응답 작업에서 LazyLLM은 LLama 2 7B 모델의 프리필링 단계를 정확도를 유지하면서 2.34배 가속했습니다.

대규모 언어 모델의 내부 일관성과 자기 피드백: 연구 동향
Internal Consistency and Self-Feedback in Large Language Models: A Survey

Jul 19

ByXun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li

대형 언어 모델(LLMs)은 정확한 응답을 제공할 것으로 기대되지만, 종종 결함 있는 추론을 보이거나 허구적인 내용을 생성하는 경우가 있습니다. 이러한 문제를 해결하기 위해 Self-Consistency, Self-Improve, Self-Refine 등 'Self-'로 시작하는 연구들이 시작되었습니다. 이들은 공통적으로 LLMs가 스스로를 평가하고 업데이트하여 문제를 완화하는 방식을 포함하고 있습니다. 그러나 이러한 노력들은 종합적인 관점에서 요약이 부족하며, 기존의 연구들은 주로 분류에 초점을 맞추고 이러한 작업들의 동기를 심층적으로 검토하지 않았습니다. 본 논문에서는 '내부 일관성(Internal Consistency)'이라는 이론적 프레임워크를 요약합니다. 이 프레임워크는 추론 부족과 허구적 내용 생성과 같은 현상에 대한 통합적인 설명을 제공합니다. 내부 일관성은 샘플링 방법론을 기반으로 LLMs의 잠재층, 디코딩층, 응답층 간의 일관성을 평가합니다. 내부 일관성 프레임워크를 확장하여, 우리는 내부 일관성을 탐구할 수 있는 간결하면서도 효과적인 이론적 프레임워크인 Self-Feedback을 소개합니다. Self-Feedback 프레임워크는 Self-Evaluation과 Self-Update 두 모듈로 구성되며, 이 프레임워크는 다양한 연구에서 활용되었습니다. 우리는 이러한 연구들을 작업 및 연구 라인별로 체계적으로 분류하고, 관련 평가 방법과 벤치마크를 요약하며, "Self-Feedback이 정말 효과가 있는가?"라는 질문에 대해 심층적으로 탐구합니다. 우리는 '내부 일관성의 모래시계 진화(Hourglass Evolution of Internal Consistency)', '일관성은 (거의) 정확성이다(Consistency Is (Almost) Correctness)' 가설, '잠재적 및 명시적 추론의 역설(The Paradox of Latent and Explicit Reasoning)' 등 여러 중요한 관점을 제안합니다. 또한, 미래 연구를 위한 유망한 방향을 제시합니다. 우리는 실험 코드, 참고 문헌 목록, 통계 데이터를 오픈소스로 공개하였으며, 이는 https://github.com/IAAR-Shanghai/ICSFSurvey에서 확인할 수 있습니다.

EVLM: 시각 이해를 위한 효율적인 비전-언어 모델
EVLM: An Efficient Vision-Language Model for Visual Understanding

Jul 19

ByKaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang

다중모달 언어 모델 분야에서 대부분의 방법은 LLaVA와 유사한 아키텍처를 기반으로 구축됩니다. 이러한 모델은 단일 계층 ViT(Vision Transformer) 특징을 시각적 프롬프트로 사용하여 이를 텍스트 토큰과 함께 언어 모델에 직접 입력합니다. 그러나 비디오와 같은 긴 시각적 신호 또는 입력을 다룰 때, 언어 모델의 자기 주의(self-attention) 메커니즘은 상당한 계산 오버헤드를 초래할 수 있습니다. 또한 단일 계층 ViT 특징을 사용하면 대형 언어 모델이 시각적 신호를 완전히 인지하기 어렵습니다. 본 논문은 계산 비용을 최소화하면서 모델이 시각적 신호를 최대한 포괄적으로 인지할 수 있는 효율적인 다중모달 언어 모델을 제안합니다. 우리의 방법은 주로 다음과 같은 요소를 포함합니다: (1) Flamingo와 유사한 이미지-텍스트 상호작용을 위한 교차 주의(cross-attention) 사용, (2) 계층적 ViT 특징 활용, (3) 모델 효과성을 향상시키기 위한 전문가 혼합(Mixture of Experts, MoE) 메커니즘 도입. 우리의 모델은 공개된 다중모달 벤치마크에서 경쟁력 있는 점수를 달성하며, 이미지 캡셔닝 및 비디오 캡셔닝과 같은 작업에서 우수한 성능을 보입니다.

스테이블 오디오 오픈
Stable Audio Open

Jul 19

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

오픈 생성 모델은 커뮤니티에 있어 매우 중요하며, 새로운 모델을 제시할 때 미세 조정(fine-tuning)이 가능하고 기준선(baseline)으로 활용될 수 있습니다. 그러나 현재 대부분의 텍스트-투-오디오(text-to-audio) 모델은 비공개 상태이며, 예술가와 연구자들이 이를 기반으로 구축할 수 없습니다. 여기서 우리는 Creative Commons 데이터로 훈련된 새로운 오픈 가중치(open-weights) 텍스트-투-오디오 모델의 아키텍처와 훈련 과정을 설명합니다. 우리의 평가는 이 모델의 성능이 다양한 지표에서 최신 기술 수준(state-of-the-art)과 경쟁력이 있음을 보여줍니다. 특히, 보고된 FDopenl3 결과(생성된 오디오의 현실감을 측정)는 44.1kHz에서 고품질 스테레오 사운드 합성의 잠재력을 보여줍니다.

ChatQA 2: 장문 컨텍스트와 RAG 능력에서 독점 LLM과의 격차 해소
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

Jul 19

ByPeng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

본 연구에서는 오픈 액세스 대형 언어 모델(LLM)과 선도적인 사유 모델(예: GPT-4-Turbo) 간의 격차를 해소하기 위해 Llama3 기반의 ChatQA 2 모델을 소개합니다. 이 모델은 장문 맥락 이해와 검색 증강 생성(RAG) 능력에 초점을 맞추고 있습니다. 이 두 가지 능력은 단일 프롬프트에 담을 수 없는 대량의 정보를 처리하는 데 필수적이며, 다운스트림 작업과 컴퓨팅 예산에 따라 상호 보완적으로 작용합니다. 우리는 Llama3-70B-base의 컨텍스트 윈도우를 8K에서 128K 토큰으로 확장하기 위한 상세한 지속 학습 레시피와 모델의 명령 수행, RAG 성능, 장문 맥락 이해 능력을 향상시키기 위한 3단계 명령어 튜닝 프로세스를 제시합니다. 실험 결과, Llama3-ChatQA-2-70B 모델은 많은 장문 맥락 이해 작업에서 GPT-4-Turbo-2024-0409와 비슷한 정확도를 달성했으며, RAG 벤치마크에서는 이를 능가했습니다. 흥미롭게도, 최신 장문 맥락 검색기가 RAG에서의 상위 k 컨텍스트 분할 문제를 완화하여 장문 맥락 이해 작업에 대한 RAG 기반 결과를 더욱 개선할 수 있음을 발견했습니다. 또한, 최신 장문 맥락 LLM을 사용하여 RAG와 장문 맥락 솔루션 간의 광범위한 비교를 제공합니다.

Qalam: 아랍어 광학 문자 및 필기체 인식을 위한 멀티모달 대형 언어 모델
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

Jul 18

ByGagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed

아랍어 광학 문자 인식(OCR)과 필기체 인식(HWR)은 아랍어 문자의 필기체 특성과 문맥 의존성으로 인해 독특한 도전 과제를 제시합니다. 본 연구에서는 SwinV2 인코더와 RoBERTa 디코더 아키텍처를 기반으로 설계된 아랍어 OCR 및 HWR을 위한 새로운 파운데이션 모델인 Qalam을 소개합니다. 우리의 모델은 기존 방법들을 크게 능가하며, HWR 작업에서 단어 오류율(WER) 0.80%, OCR 작업에서 1.18%를 달성했습니다. Qalam은 아랍어 필사본에서 추출한 450만 장 이상의 이미지와 6만 개의 이미지-텍스트 쌍으로 구성된 합성 데이터셋을 포함한 다양한 데이터셋으로 학습되었습니다. 특히, Qalam은 아랍어 스크립트에서 중요한 기능인 아랍어 발음 구별 기호를 탁월하게 처리하는 능력을 보여줍니다. 또한, 현재 OCR 시스템의 일반적인 한계인 고해상도 입력 처리 능력에서도 뛰어난 성능을 보입니다. 이러한 발전은 Qalam이 아랍어 스크립트 인식 분야에서 정확성과 효율성 측면에서 큰 도약을 이루며 선도적인 솔루션으로서의 잠재력을 강조합니다.

VisFocus: OCR 없이도 문서를 밀집하게 이해하기 위한 프롬프트 기반 비전 인코더
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

Jul 17

ByOfir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha

최근 시각 문서 이해 분야에서 주목할 만한 발전이 이루어졌으며, 주로 시각 모델과 언어 모델의 연속적 구조가 주류를 이루고 있습니다. 텍스트 구성 요소는 OCR 기반 접근 방식에서 외부 OCR 모델을 사용하여 명시적으로 추출되거나, 또는 OCR-free 접근 방식에서 시각 모델에 읽기 능력을 부여할 수 있습니다. 일반적으로 모델에 대한 쿼리는 언어 구성 요소에만 입력되며, 이로 인해 시각적 특징이 문서 전체를 포괄해야 합니다. 본 논문에서는 시각 인코더의 능력을 더 잘 활용하기 위해 언어 프롬프트와 직접 결합하는 OCR-free 방법인 VisFocus를 제안합니다. 이를 위해 다운샘플링 레이어를 입력 프롬프트를 받고 문서의 관련 부분을 강조하는 레이어로 대체합니다. 또한, 시각 인코더에 프롬프트 대신 문서 텍스트의 일부를 입력하고 언어 마스킹을 사용하는 새로운 사전 학습 작업을 도입하여 모델에 초점 기능을 부여합니다. 결과적으로 VisFocus는 제공된 프롬프트와 관련된 텍스트 패치에 주의를 할당하는 방법을 학습합니다. 실험 결과, 이 프롬프트 기반 시각 인코딩 접근 방식이 성능을 크게 향상시키며 다양한 벤치마크에서 최첨단 결과를 달성함을 보여줍니다.

자율 컴퓨팅의 비전: LLM이 이를 현실로 만들 수 있을까?
The Vision of Autonomic Computing: Can LLMs Make It a Reality?

Jul 19

ByZhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

20여 년 전에 제안된 자율 컴퓨팅 비전(Autonomic Computing Vision, ACV)은 생물학적 유기체와 유사하게 스스로 관리하며 변화하는 환경에 원활하게 적응하는 컴퓨팅 시스템을 상정합니다. 수십 년간의 연구에도 불구하고, 현대 컴퓨팅 시스템의 동적이고 복잡한 특성으로 인해 ACV를 달성하는 것은 여전히 도전적인 과제로 남아 있습니다. 최근 대규모 언어 모델(Large Language Models, LLMs)의 발전은 방대한 지식, 언어 이해 능력, 그리고 작업 자동화 능력을 활용하여 이러한 과제에 대한 유망한 해결책을 제공합니다. 본 논문은 마이크로서비스 관리를 위한 LLM 기반 다중 에이전트 프레임워크를 통해 ACV를 실현할 가능성을 탐구합니다. 우리는 자율 서비스 유지를 위한 5단계 분류 체계를 소개하고, Sock Shop 마이크로서비스 데모 프로젝트를 기반으로 한 온라인 평가 벤치마크를 제시하여 프레임워크의 성능을 평가합니다. 연구 결과는 마이크로서비스 아키텍처 내에서 문제를 탐지하고 해결하는 데 있어 LLM의 효과성을 강조하며, Level 3 자율성 달성에 있어 상당한 진전을 보여줍니다. 이 연구는 LLM을 마이크로서비스 관리 프레임워크에 통합하는 선구적인 접근을 통해 자율 컴퓨팅을 발전시키는 데 기여하며, 더욱 적응적이고 자율적으로 관리되는 컴퓨팅 시스템을 위한 길을 열어줍니다. 코드는 https://aka.ms/ACV-LLM에서 공개될 예정입니다.

SciCode: 과학자들이 선별한 연구 코딩 벤치마크
SciCode: A Research Coding Benchmark Curated by Scientists

Jul 18

ByMinyang Tian, Luyu Gao, Shizhuo Dylan Zhang, Xinan Chen, Cunwei Fan, Xuefei Guo, Roland Haas, Pan Ji, Kittithat Krongchon, Yao Li, Shengyan Liu, Di Luo, Yutao Ma, Hao Tong, Kha Trinh, Chenyu Tian, Zihan Wang, Bohao Wu, Yanyu Xiong, Shengzhu Yin, Minhui Zhu, Kilian Lieret, Yanxin Lu, Genglin Liu, Yufeng Du, Tianhua Tao, Ofir Press, Jamie Callan, Eliu Huerta, Hao Peng

언어 모델(LMs)이 이제 많은 도전적인 과제에서 평균적인 인간을 능가함에 따라, 도전적이고 고품질이며 현실적인 평가를 개발하는 것이 점점 더 어려워지고 있습니다. 우리는 이 문제를 해결하기 위해 실제 과학 연구 문제를 해결하기 위한 코드 생성 능력을 LMs의 능력을 조사함으로써 접근했습니다. 수학, 물리학, 화학, 생물학, 재료 과학을 포함한 16개의 다양한 자연과학 하위 분야의 과학자와 AI 연구자들의 입력을 통합하여, 과학자들이 선별한 코딩 벤치마크인 SciCode를 만들었습니다. SciCode의 문제는 자연스럽게 여러 하위 문제로 분해되며, 각 하위 문제는 지식 회상, 추론 및 코드 합성을 포함합니다. 총 80개의 도전적인 주요 문제에서 분해된 338개의 하위 문제로 구성된 SciCode는 유용한 과학적 배경 정보를 지정하는 선택적 설명과 평가를 위한 과학자 주석의 골드 스탠다드 솔루션 및 테스트 케이스를 제공합니다. 테스트된 모델 중 가장 성능이 좋은 Claude3.5-Sonnet은 가장 현실적인 설정에서도 문제의 4.6%만 해결할 수 있습니다. 우리는 SciCode가 현대 LMs의 유용한 과학적 보조자로 나아가는 진전을 보여주고, 미래의 과학적 AI 개발과 평가에 대한 통찰을 제공한다고 믿습니다.

룩업 테이블 양자화된 대형 언어 모델을 위한 고속 행렬 곱셈
Fast Matrix Multiplications for Lookup Table-Quantized LLMs

Jul 15

ByHan Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim

대규모 언어 모델(LLM)의 배포는 종종 메모리 대역폭에 의해 제약을 받으며, 주요 병목 현상은 GPU의 전역 메모리에서 레지스터로 모델 파라미터를 전송하는 비용에서 발생합니다. 디양자화(dequantization)와 행렬 곱셈(matmul) 연산을 융합한 커스텀 커널과 결합할 때, 가중치 전용 양자화(weight-only quantization)는 메모리 이동량을 줄여 더 빠른 추론을 가능하게 합니다. 그러나 가중치가 비균일한 룩업 테이블(LUT) 양자화를 통해 균등하지 않은 비트 폭(예: 3비트)으로 압축된 경우, 가중치 양자화된 LLM을 위한 고성능 커널을 개발하는 것은 상당한 도전 과제를 제시합니다. 본 논문은 LUT 양자화된 LLM을 위한 유연한 룩업 테이블 엔진인 FLUTE를 소개하며, 이는 양자화된 가중치 행렬의 오프라인 재구성을 통해 언패킹(unpacking)과 관련된 비트 조작을 최소화하고, 룩업 테이블의 벡터화 및 복제를 통해 공유 메모리 대역폭 제약을 완화합니다. 배치 크기가 32 미만이고 양자화 그룹 크기가 128(LLM 추론에서 일반적)인 경우, FLUTE 커널은 기존 GEMM 커널보다 2~4배 빠를 수 있습니다. FLUTE의 응용으로, 룩업 테이블 기반 NormalFloat 양자화의 간단한 확장을 탐구하고 이를 LLaMA3를 다양한 구성으로 양자화하는 데 적용하여, 강력한 베이스라인 대비 경쟁력 있는 양자화 성능을 달성하면서 엔드투엔드 처리량을 1.5~2배 증가시켰습니다.

Phi-3 안전성 사후 훈련: "Break-Fix" 사이클을 통한 언어 모델 정렬
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle

Jul 18

ByEmman Haider, Daniel Perez-Becker, Thomas Portet, Piyush Madan, Amit Garg, David Majercak, Wen Wen, Dongwoo Kim, Ziyi Yang, Jianwen Zhang, Hiteshi Sharma, Blake Bullwinkel, Martin Pouliot, Amanda Minnich, Shiven Chawla, Solianna Herrera, Shahed Warreth, Maggie Engler, Gary Lopez, Nina Chikanov, Raja Sekhar Rao Dheekonda, Bolor-Erdene Jagdagdorj, Roman Lutz, Richard Lundeen, Tori Westerhoff, Pete Bryan, Christian Seifert, Ram Shankar Siva Kumar, Andrew Berkley, Alex Kessler

최근 언어 모델 훈련 분야의 혁신은 스마트폰에서도 실행 가능할 만큼 작으면서도 높은 성능을 발휘하는 모델을 만드는 것이 가능하다는 것을 입증했습니다. 이러한 모델들이 점점 더 많은 영역에 배포됨에 따라, 이들이 인간의 선호도와 안전 고려사항에 부합하도록 하는 것이 중요해졌습니다. 본 보고서에서는 Phi-3 시리즈 언어 모델의 안전 정렬을 위한 우리의 방법론을 소개합니다. 우리는 "고치기 전에 깨뜨리기" 사이클을 활용하여, 단일 및 다중 턴 시나리오에서 다양한 유해 영역을 커버하기 위해 데이터셋 큐레이션, 안전 사후 훈련, 벤치마킹, 레드 팀 테스트, 취약점 식별을 여러 차례 반복 수행했습니다. 그 결과, 이 접근 방식이 Phi-3 모델의 성능을 다양한 책임감 있는 AI 벤치마크에서 반복적으로 개선시켰음을 확인했습니다.

야생 환경에서의 시각적 텍스트 생성
Visual Text Generation in the Wild

Jul 19

ByYuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang

최근 생성 모델의 급속한 발전과 함께 시각적 텍스트 생성 분야에서 상당한 진전이 이루어졌습니다. 그러나 실제 환경에서 고품질의 텍스트 이미지를 렌더링하는 것은 여전히 도전적인 과제로, 세 가지 중요한 기준을 충족해야 합니다: (1) 정확성(Fidelity): 생성된 텍스트 이미지는 사실적이어야 하며, 주어진 조건에 명시된 내용과 일치해야 합니다; (2) 합리성(Reasonability): 생성된 텍스트의 영역과 내용은 장면과 조화를 이루어야 합니다; (3) 유용성(Utility): 생성된 텍스트 이미지는 텍스트 탐지 및 인식과 같은 관련 작업에 도움을 줄 수 있어야 합니다. 조사 결과, 기존의 렌더링 기반 방법이나 확산 기반 방법 모두 이러한 모든 측면을 동시에 충족하기 어려워 적용 범위가 제한적임을 발견했습니다. 따라서 본 논문에서는 야외 환경에서 고품질의 텍스트 이미지를 생성할 수 있는 시각적 텍스트 생성기(SceneVTG)를 제안합니다. SceneVTG는 두 단계의 패러다임을 따르며, 다중 모달 대형 언어 모델을 활용하여 다양한 규모와 수준에서 합리적인 텍스트 영역과 내용을 추천하고, 이를 조건으로 사용하여 조건부 확산 모델이 텍스트 이미지를 생성합니다. 광범위한 실험을 통해 제안된 SceneVTG가 기존의 렌더링 기반 방법과 최근의 확산 기반 방법보다 정확성과 합리성 측면에서 크게 우수함을 입증했습니다. 또한, 생성된 이미지는 텍스트 탐지 및 인식 작업에서 우수한 유용성을 제공합니다. 코드와 데이터셋은 AdvancedLiterateMachinery에서 확인할 수 있습니다.

앞서 나아가기: JumpReLU 희소 오토인코더를 통한 재구성 정확도 향상
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

Jul 19

BySenthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda

희소 오토인코더(SAE)는 언어 모델(LM)의 활성화에서 인과적으로 관련 있고 해석 가능한 선형 특성을 식별하기 위한 유망한 비지도 학습 접근법입니다. 하위 작업에 유용하기 위해서는 SAE가 LM 활성화를 충실하게 분해해야 하지만, 해석 가능성을 위해서는 분해가 희소해야 합니다. 이 두 목표는 상충 관계에 있습니다. 본 논문에서는 JumpReLU SAE를 소개하며, 이는 Gemma 2 9B 활성화에서 주어진 희소성 수준에서 최첨단 재구성 정확도를 달성합니다. 이는 Gated 및 TopK SAE와 같은 최근의 다른 발전과 비교하여 이루어진 결과입니다. 또한, 이 개선이 해석 가능성을 희생하지 않음을 수동 및 자동화된 해석 가능성 연구를 통해 보여줍니다. JumpReLU SAE는 기본(ReLU) SAE의 간단한 변형으로, ReLU를 불연속적인 JumpReLU 활성화 함수로 대체하며, 학습 및 실행에 있어서도 비슷한 효율성을 유지합니다. 직통 추정기(STEs)를 원칙적으로 활용함으로써, SAE의 순전파 과정에서 도입된 불연속적인 JumpReLU 함수에도 불구하고 JumpReLU SAE를 효과적으로 학습할 수 있음을 보여줍니다. 마찬가지로, STEs를 사용하여 L1과 같은 대리자 대신 L0를 직접 희소하게 학습함으로써 수축과 같은 문제를 피합니다.

PlacidDreamer: 텍스트-3D 생성에서의 조화로운 발전
PlacidDreamer: Advancing Harmony in Text-to-3D Generation

Jul 19

ByShuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia

최근 텍스트-3D 생성 기술이 큰 주목을 받으며 성능이 크게 향상되었습니다. 기존 방법들은 종단 간 3D 생성 모델을 사용하여 3D 가우시안을 초기화하고, 다중 뷰 확산 모델을 통해 다중 뷰 일관성을 강화하며, 텍스트-이미지 확산 모델과 점수 증류 알고리즘을 결합해 세부 사항을 정교화했습니다. 그러나 이러한 방법들은 두 가지 한계를 보입니다. 첫째, 서로 다른 모델들이 다양한 3D 자산을 생성하려 하기 때문에 생성 방향에서 충돌이 발생합니다. 둘째, 점수 증류에서의 과포화 문제가 충분히 연구되고 해결되지 않았습니다. 이러한 한계를 해결하기 위해, 우리는 PlacidDreamer를 제안합니다. 이는 단일 다중 뷰 확산 모델을 사용하여 초기화, 다중 뷰 생성, 텍스트 조건 생성 과정을 조화롭게 통합함과 동시에, 균형 잡힌 포화를 달성하기 위한 새로운 점수 증류 알고리즘을 도입한 텍스트-3D 생성 프레임워크입니다. 생성 방향을 통일하기 위해, 우리는 Latent-Plane 모듈을 도입했습니다. 이는 학습에 친화적인 플러그인 확장 기능으로, 다중 뷰 확산 모델이 빠른 기하학적 재구성을 통해 초기화를 지원하고, 텍스트-이미지 확산 모델을 개인화하기 위한 향상된 다중 뷰 이미지를 제공할 수 있게 합니다. 과포화 문제를 해결하기 위해, 우리는 점수 증류를 다목적 최적화 문제로 간주하고 Balanced Score Distillation 알고리즘을 제안했습니다. 이는 풍부한 세부 사항과 균형 잡힌 포화를 동시에 달성하는 파레토 최적 해를 제공합니다. 광범위한 실험을 통해 PlacidDreamer의 뛰어난 성능을 검증했습니다. 코드는 https://github.com/HansenHuang0823/PlacidDreamer에서 확인할 수 있습니다.

인코더 수준 지식 증류를 통한 효율적인 오디오 캡셔닝
Efficient Audio Captioning with Encoder-Level Knowledge Distillation

Jul 19

ByXuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, Mark D. Plumbley

최근 모델들을 통해 자동 오디오 캡셔닝(AAC) 분야에서 상당한 개선이 이루어졌습니다. 그러나 이러한 모델들은 성능이 향상됨에 따라 점점 더 커지는 경향을 보입니다. 본 연구에서는 AAC를 위한 지식 증류(KD) 프레임워크를 제안합니다. 우리의 분석에 따르면, 인코더-디코더 기반 AAC 모델에서 지식을 디코더보다는 인코더로 증류하는 것이 더 효과적임을 확인했습니다. 이를 위해, 표준 지도 학습 손실과 시퀀스 수준의 KD 손실 외에도 인코더 수준의 KD 손실을 학습에 통합했습니다. 우리는 평균 제곱 오차(MSE) 손실과 대조 손실을 기반으로 한 두 가지 인코더 수준의 KD 방법을 조사했습니다. 실험 결과, 대조 KD가 MSE KD보다 더 강건하며, 데이터가 부족한 상황에서도 우수한 성능을 보이는 것으로 나타났습니다. KD 프레임워크에서 오디오 전용 데이터를 학습에 활용함으로써, 우리의 학생 모델은 경쟁력 있는 성능을 달성했으며, 추론 속도가 19배 더 빠릅니다. 온라인 데모는 \url{https://huggingface.co/spaces/wsntxxn/efficient_audio_captioning}에서 확인할 수 있습니다.

SparseCraft: 스테레오시스 기반 기하학적 선형화를 통한 소수 샷 신경망 재구성
SparseCraft: Few-Shot Neural Reconstruction through Stereopsis Guided Geometric Linearization

Jul 19

ByMae Younes, Amine Ouasfi, Adnane Boukhayma

본 논문에서는 소수의 컬러 이미지로부터 3D 형태와 시점에 종속적인 외관을 복원하여 효율적인 3D 재구성과 새로운 시점 합성을 가능하게 하는 새로운 접근 방식을 제시합니다. 우리의 방법은 Signed Distance Function(SDF)과 radiance field 형태의 암묵적 신경망 표현을 학습합니다. 이 모델은 레이 마칭(ray marching) 기반 볼륨 렌더링을 통해 점진적으로 학습되며, 학습이 필요 없는 다중 시점 스테레오(MVS) 단서로 정규화됩니다. 우리의 주요 기여는 SDF 필드가 레벨 세트(level-set) 근처에서 가능한 한 선형적이 되도록 유도하는 새로운 암묵적 신경망 형태 함수 학습 전략입니다. 이를 통해 지도 학습 및 정규화 신호에서 발생하는 노이즈에 대해 강인한 학습이 가능해집니다. 사전 학습된 사전 지식(pretrained priors)을 사용하지 않고도, 우리의 방법인 SparseCraft은 표준 벤치마크에서 희소 시점(sparse views)으로부터의 새로운 시점 합성 및 재구성 모두에서 최첨단 성능을 달성하며, 학습 시간이 10분 미만으로 소요됩니다.

AI 연구 논문 데일리

번역이 포함된 일일 선별된 AI 연구 논문

LazyLLM: 효율적인 장문 맥락 LLM 추론을 위한 동적 토큰 프루닝
LazyLLM: Dynamic Token Pruning for Efficient Long Context LLM Inference

Jul 19

ByQichen Fu, Minsik Cho, Thomas Merth, Sachin Mehta, Mohammad Rastegari, Mahyar Najibi

대규모 언어 모델의 내부 일관성과 자기 피드백: 연구 동향
Internal Consistency and Self-Feedback in Large Language Models: A Survey

Jul 19

ByXun Liang, Shichao Song, Zifan Zheng, Hanyu Wang, Qingchen Yu, Xunkai Li, Rong-Hua Li, Feiyu Xiong, Zhiyu Li

EVLM: 시각 이해를 위한 효율적인 비전-언어 모델
EVLM: An Efficient Vision-Language Model for Visual Understanding

Jul 19

ByKaibing Chen, Dong Shen, Hanwen Zhong, Huasong Zhong, Kui Xia, Di Xu, Wei Yuan, Yifei Hu, Bin Wen, Tianke Zhang, Changyi Liu, Dewen Fan, Huihui Xiao, Jiahong Wu, Fan Yang, Size Li, Di Zhang

스테이블 오디오 오픈
Stable Audio Open

Jul 19

ByZach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons

ChatQA 2: 장문 컨텍스트와 RAG 능력에서 독점 LLM과의 격차 해소
ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

Jul 19

ByPeng Xu, Wei Ping, Xianchao Wu, Zihan Liu, Mohammad Shoeybi, Bryan Catanzaro

Qalam: 아랍어 광학 문자 및 필기체 인식을 위한 멀티모달 대형 언어 모델
Qalam : A Multimodal LLM for Arabic Optical Character and Handwriting Recognition

Jul 18

ByGagan Bhatia, El Moatez Billah Nagoudi, Fakhraddin Alwajih, Muhammad Abdul-Mageed

VisFocus: OCR 없이도 문서를 밀집하게 이해하기 위한 프롬프트 기반 비전 인코더
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding

Jul 17

ByOfir Abramovich, Niv Nayman, Sharon Fogel, Inbal Lavi, Ron Litman, Shahar Tsiper, Royee Tichauer, Srikar Appalaraju, Shai Mazor, R. Manmatha

자율 컴퓨팅의 비전: LLM이 이를 현실로 만들 수 있을까?
The Vision of Autonomic Computing: Can LLMs Make It a Reality?

Jul 19

ByZhiyang Zhang, Fangkai Yang, Xiaoting Qin, Jue Zhang, Qingwei Lin, Gong Cheng, Dongmei Zhang, Saravan Rajmohan, Qi Zhang

SciCode: 과학자들이 선별한 연구 코딩 벤치마크
SciCode: A Research Coding Benchmark Curated by Scientists

Jul 18

룩업 테이블 양자화된 대형 언어 모델을 위한 고속 행렬 곱셈
Fast Matrix Multiplications for Lookup Table-Quantized LLMs

Jul 15

ByHan Guo, William Brandon, Radostin Cholakov, Jonathan Ragan-Kelley, Eric P. Xing, Yoon Kim

Phi-3 안전성 사후 훈련: "Break-Fix" 사이클을 통한 언어 모델 정렬
Phi-3 Safety Post-Training: Aligning Language Models with a "Break-Fix" Cycle

Jul 18

야생 환경에서의 시각적 텍스트 생성
Visual Text Generation in the Wild

Jul 19

ByYuanzhi Zhu, Jiawei Liu, Feiyu Gao, Wenyu Liu, Xinggang Wang, Peng Wang, Fei Huang, Cong Yao, Zhibo Yang

앞서 나아가기: JumpReLU 희소 오토인코더를 통한 재구성 정확도 향상
Jumping Ahead: Improving Reconstruction Fidelity with JumpReLU Sparse Autoencoders

Jul 19

BySenthooran Rajamanoharan, Tom Lieberum, Nicolas Sonnerat, Arthur Conmy, Vikrant Varma, János Kramár, Neel Nanda

PlacidDreamer: 텍스트-3D 생성에서의 조화로운 발전
PlacidDreamer: Advancing Harmony in Text-to-3D Generation

Jul 19

ByShuo Huang, Shikun Sun, Zixuan Wang, Xiaoyu Qin, Yanmin Xiong, Yuan Zhang, Pengfei Wan, Di Zhang, Jia Jia

인코더 수준 지식 증류를 통한 효율적인 오디오 캡셔닝
Efficient Audio Captioning with Encoder-Level Knowledge Distillation

Jul 19

ByXuenan Xu, Haohe Liu, Mengyue Wu, Wenwu Wang, Mark D. Plumbley

SparseCraft: 스테레오시스 기반 기하학적 선형화를 통한 소수 샷 신경망 재구성
SparseCraft: Few-Shot Neural Reconstruction through Stereopsis Guided Geometric Linearization

Jul 19

ByMae Younes, Amine Ouasfi, Adnane Boukhayma