번역이 포함된 일일 선별된 AI 연구 논문
우리는 장문 컨텍스트 입력과 출력을 지원하는 다목적 대형 비전-언어 모델인 InternLM-XComposer-2.5(IXC-2.5)를 소개합니다. IXC-2.5는 다양한 텍스트-이미지 이해 및 구성 작업에서 뛰어난 성능을 발휘하며, 단 7B 규모의 LLM 백엔드로 GPT-4V 수준의 능력을 달성했습니다. 24K의 인터리브된 이미지-텍스트 컨텍스트로 학습된 이 모델은 RoPE 외삽을 통해 96K의 장문 컨텍스트로 원활하게 확장될 수 있습니다. 이러한 장문 컨텍스트 능력은 IXC-2.5가 광범위한 입력 및 출력 컨텍스트가 필요한 작업에서 탁월한 성능을 발휘할 수 있게 합니다. 이전 2.0 버전과 비교하여, InternLM-XComposer-2.5는 비전-언어 이해 측면에서 세 가지 주요 업그레이드를 특징으로 합니다: (1) 초고해상도 이해, (2) 세밀한 비디오 이해, (3) 다중 턴 다중 이미지 대화. 이해 기능 외에도, IXC-2.5는 추가 LoRA 파라미터를 사용하여 텍스트-이미지 구성 작업에 적용되는 두 가지 매력적인 애플리케이션으로 확장되었습니다: (1) 웹페이지 제작, (2) 고품질 텍스트-이미지 기사 작성. IXC-2.5는 28개의 벤치마크에서 평가되었으며, 16개의 벤치마크에서 기존의 오픈소스 최첨단 모델들을 능가했습니다. 또한 16개의 주요 작업에서 GPT-4V 및 Gemini Pro를 능가하거나 근접한 성능을 보였습니다. InternLM-XComposer-2.5는 https://github.com/InternLM/InternLM-XComposer에서 공개적으로 제공됩니다.
다운스트림 애플리케이션 시나리오를 충실히 반영하는 벤치마크는 테이블 형식의 머신러닝(ML) 연구의 원활한 도입에 필수적입니다. 본 연구에서는 기존 테이블 형식 벤치마크를 검토하고, 학계에서 이용 가능한 데이터셋에서 저조하게 나타나는 산업급 테이블 데이터의 두 가지 공통 특성을 발견했습니다. 첫째, 실제 배포 시나리오에서 테이블 데이터는 시간에 따라 변화하는 경우가 많습니다. 이는 모델 성능에 영향을 미치며, 올바른 모델 평가를 위해 시간 기반의 훈련 및 테스트 분할이 필요합니다. 그러나 기존 학계의 테이블 데이터셋은 이러한 평가를 가능하게 하는 타임스탬프 메타데이터가 부재한 경우가 많습니다. 둘째, 프로덕션 환경에서 상당 부분의 데이터셋은 광범위한 데이터 수집 및 피처 엔지니어링 파이프라인에서 비롯됩니다. 이는 각 특정 데이터셋에 대해 예측 가능한, 정보가 없는, 상관관계가 있는 피처의 절대적 및 상대적 수에 서로 다른 영향을 미칠 수 있으며, 이는 다시 모델 선택에 영향을 줄 수 있습니다. 이러한 학계 벤치마크의 공백을 메우기 위해, 우리는 금융부터 음식 배달 서비스에 이르기까지 다양한 도메인을 아우르는 8개의 산업급 테이블 데이터셋 컬렉션인 TabReD를 소개합니다. 우리는 TabReD가 제공하는 피처가 풍부하고 시간에 따라 진화하는 데이터 환경에서 다수의 테이블 형식 ML 모델을 평가합니다. 시간 기반 데이터 분할에서의 평가가 학계 벤치마크에서 더 흔히 사용되는 무작위 분할에서의 평가와 다른 방법 순위를 초래함을 보여줍니다. 또한, TabReD 데이터셋에서는 MLP와 유사한 아키텍처와 GBDT가 최고의 성능을 보이는 반면, 더 정교한 딥러닝 모델의 효과는 아직 입증되어야 함을 확인했습니다.
Classifier-free guidance(CFG)는 조건부 확산 모델의 품질을 향상시키기 위한 표준 방법으로 자리 잡았습니다. 그러나 CFG를 사용하기 위해서는 주요 확산 모델과 함께 무조건 모델을 훈련시키거나, 훈련 과정을 수정하여 주기적으로 null 조건을 삽입해야 합니다. 또한 CFG를 무조건 모델로 확장하는 명확한 방법도 존재하지 않습니다. 본 논문에서는 CFG의 핵심 원리를 재검토하고, 특별한 훈련 절차 없이도 CFG의 이점을 제공하는 새로운 방법인 independent condition guidance(ICG)를 소개합니다. 우리의 접근 방식은 조건부 확산 모델의 훈련 과정을 간소화하며, 사전 훈련된 모든 조건부 모델에 대해 추론 중에도 적용할 수 있습니다. 또한, 모든 확산 네트워크에 인코딩된 시간 단계 정보를 활용하여 CFG의 확장 버전인 time-step guidance(TSG)를 제안합니다. TSG는 무조건 모델을 포함한 모든 확산 모델에 적용할 수 있습니다. 우리의 가이던스 기법은 구현이 간단하며, CFG와 동일한 샘플링 비용을 가집니다. 다양한 조건부 확산 모델에 대한 광범위한 실험을 통해 ICG가 표준 CFG의 성능과 동등함을 입증했습니다. 또한, TSG가 조건 정보에 의존하지 않고도 CFG와 유사한 방식으로 생성 품질을 개선함을 보여줍니다.
시각적 프로젝터는 멀티모달 대형 언어 모델(MLLM)에서 시각적 인코더와 대형 언어 모델(LLM) 간의 필수적인 연결 고리 역할을 합니다. 일반적으로 MLLM은 단순한 MLP(Multi-Layer Perceptron)를 사용하여 일대일 변환을 통해 모든 시각적 컨텍스트를 보존합니다. 그러나 고해상도 이미지를 다룰 때 시각적 토큰은 중복될 수 있으며 크게 증가할 수 있어 MLLM의 효율성을 크게 저하시킵니다. 최근 몇몇 연구에서는 리샘플러(resampler) 또는 추상화기(abstractor)를 도입하여 결과적인 시각적 토큰의 수를 줄이려고 시도했습니다. 그러나 이러한 방법은 더 세밀한 디테일을 포착하지 못하고 MLLM의 시각적 추론 능력을 약화시키는 문제가 있습니다. 본 연구에서는 이러한 문제를 해결하기 위해, 풍부한 특성을 주입하여 압축된 시각적 토큰을 생성하는 새로운 시각적 프로젝터를 제안합니다. 구체적으로, 먼저 시각적 특징을 저해상도 포인트 쿼리로 보간하여 전체적인 시각적 표현을 기반으로 제공합니다. 그런 다음, 고해상도 및 다중 수준의 지역 기반 단서를 세밀한 참조 키와 값으로 활용하는 지역-대-포인트 주입 모듈을 도입하여, 이들이 해당 지역 컨텍스트 내에서 완전히 흡수되도록 합니다. 이 단계는 거친 포인트 쿼리를 효과적으로 업데이트하여, 후속 LLM 추론을 위한 풍부한 쿼리로 변환합니다. 광범위한 실험을 통해 우리의 접근 방식이 시각적 토큰을 75%~89% 압축하면서도 다양한 벤치마크에서 비슷하거나 더 나은 성능을 달성하며, 훨씬 더 높은 효율성을 보여줌을 입증했습니다. 소스 코드는 https://github.com/CircleRadon/TokenPacker에서 확인할 수 있습니다.
최근 오디오 생성 작업이 상당한 연구 관심을 끌고 있다. 실질적인 애플리케이션에 오디오 생성을 통합하기 위해서는 정밀한 시간 제어가 필수적이다. 본 연구에서는 시간 제어가 가능한 오디오 생성 프레임워크인 PicoAudio를 제안한다. PicoAudio는 맞춤형 모델 설계를 통해 오디오 생성을 안내하는 시간 정보를 통합한다. 이 프레임워크는 데이터 크롤링, 분할, 필터링 및 세밀하게 시간 정렬된 오디오-텍스트 데이터의 시뮬레이션을 활용한다. 주관적 및 객관적 평가 모두에서 PicoAudio가 타임스탬프 및 발생 빈도 제어 가능성 측면에서 현재 최첨단 생성 모델을 크게 능가함을 보여준다. 생성된 샘플은 데모 웹사이트 https://PicoAudio.github.io에서 확인할 수 있다.
확산 모델(Diffusion Models, DMs)은 생성 학습 분야에 혁명을 일으켰습니다. 이 모델은 확산 과정을 활용하여 데이터를 단순한 가우시안 분포로 인코딩합니다. 그러나 복잡하고 잠재적으로 다중 모드를 가진 데이터 분포를 단일 연속 가우시안 분포로 인코딩하는 것은 불필요하게 어려운 학습 문제를 제기합니다. 우리는 이 과제를 단순화하기 위해 이산 잠재 변수를 도입한 이산-연속 잠재 변수 확산 모델(Discrete-Continuous Latent Variable Diffusion Models, DisCo-Diff)을 제안합니다. 우리는 학습 가능한 이산 잠재 변수를 확산 모델에 추가하고, 이를 인코더로 추론하며, 확산 모델과 인코더를 종단 간(end-to-end)으로 학습합니다. DisCo-Diff는 사전 학습된 네트워크에 의존하지 않아 프레임워크를 보편적으로 적용할 수 있습니다. 이산 잠재 변수는 확산 모델의 복잡한 노이즈-투-데이터 매핑 학습을 크게 단순화하며, 이는 확산 모델의 생성적 ODE의 곡률을 줄임으로써 가능합니다. 추가적으로, 자동회귀 트랜스포머는 이산 잠재 변수의 분포를 모델링하는데, 이는 DisCo-Diff가 작은 코드북을 가진 소수의 이산 변수만을 필요로 하기 때문에 간단한 과정입니다. 우리는 DisCo-Diff를 토이 데이터, 여러 이미지 합성 작업, 그리고 분자 도킹에 대해 검증하였고, 이산 잠재 변수를 도입함으로써 모델 성능이 일관적으로 향상됨을 확인했습니다. 예를 들어, DisCo-Diff는 ODE 샘플러를 사용하여 클래스 조건부 ImageNet-64/128 데이터셋에서 최첨단 FID 점수를 달성했습니다.
다양한 도메인에서 탁월한 추론 능력, 일반화 성능, 그리고 유창함으로 알려진 대형 언어 모델(LLMs)은 음성 관련 작업을 향상시키기 위한 유망한 접근법을 제시합니다. 본 논문에서는 디코더 전용 LLMs를 음성-텍스트 번역(S2TT) 작업에 통합하는 데 초점을 맞춥니다. 우리는 LLM이 인코딩된 음성 표현을 직접 활용하고 텍스트 번역을 생성할 수 있는 디코더 전용 아키텍처를 제안합니다. 또한, 다양한 파라미터 효율적 미세 조정 기법과 작업 구성의 효과를 조사합니다. 우리의 모델은 독점 데이터 없이 학습된 모델 중 CoVoST 2와 FLEURS에서 최첨단 성능을 달성합니다. 또한, 제안된 모델의 설계 선택을 검증하기 위한 분석을 수행하고 LLMs를 S2TT에 통합하는 데 대한 통찰을 제공합니다.
대형 언어 모델(LLM)은 유해하거나 일반적으로 허용되지 않는 출력을 유도하는 방법인 '탈옥(jailbreak)'에 취약합니다. 안전 조치는 이러한 탈옥 공격을 방어하는 데 있어 그 효과를 기준으로 개발 및 평가되며, 이는 안전성이 견고성과 동일하다는 믿음을 반영합니다. 우리는 출력 필터 및 정렬 미세 조정과 같은 현재의 방어 메커니즘이 모델 안전성을 보장하기에 근본적으로 불충분하며, 앞으로도 그럴 것이라고 주장합니다. 이러한 방어 메커니즘은 이중 의도 쿼리와 무해한 출력을 조합하여 유해한 목표를 달성할 수 있는 능력에서 비롯된 위험을 해결하지 못합니다. 이 중요한 격차를 해결하기 위해, 우리는 모델 출력에서 허용되지 않는 정보 유출을 악용하여 악의적 목표를 달성하는 '추론적 적대자(inferential adversaries)'라는 정보 이론적 위협 모델을 소개합니다. 우리는 이를 특정 허용되지 않는 출력을 강제로 생성시키려는 일반적으로 연구되는 보안 적대자와 구별합니다. 우리는 질문 분해와 응답 집계를 통해 추론적 적대자를 자동화하는 것이 가능함을 입증합니다. 안전성을 보장하기 위해, 우리는 검열 메커니즘에 대한 정보 검열 기준을 정의하여 허용되지 않는 정보의 유출을 제한합니다. 우리는 이 한계를 보장하는 방어 메커니즘을 제안하고, 안전성과 유용성 간의 본질적인 트레이드오프를 밝힙니다. 우리의 연구는 안전한 LLM을 출시하기 위한 요구 사항과 관련된 유용성 비용에 대한 첫 번째 이론적 이해를 제공합니다.
위치 편향(position bias)은 현대 언어 모델(LMs)에서 널리 존재하는 문제로, 모델이 주어진 문맥 내에서 내용의 위치에 따라 우선순위를 부여하는 현상을 말합니다. 이러한 편향은 종종 예상치 못한 모델 실패를 초래하며 다양한 애플리케이션에서 성능, 견고성 및 신뢰성을 저해합니다. 우리의 기계적 분석은 이 위치 편향이 거의 모든 최첨단 언어 모델에서 사용되는 두 가지 구성 요소, 즉 인과적 주의(causal attention)와 상대적 위치 인코딩(relative positional encodings)에 기인한다고 밝혔습니다. 구체적으로, 우리는 인과적 주의가 일반적으로 모델이 먼 위치의 내용을 선호하도록 만들고, RoPE와 같은 상대적 위치 인코딩은 가까운 위치의 내용을 선호한다는 것을 검색 강화 질의응답(QA) 분석을 통해 발견했습니다. 또한, 객체 탐지에 대한 실험적 연구는 시각-언어 모델(VLMs)에서도 위치 편향이 존재함을 보여줍니다. 이러한 분석을 바탕으로, 우리는 다양한 입력 세그먼트 순서(예: LM-as-a-judge에서의 옵션, QA에서의 검색된 문서)로 인한 위치 편향을 **훈련 없이 제로샷 방식**으로 제거하는 방법을 제안합니다. 우리의 방법은 세그먼트 간의 인과적 주의를 양방향 주의(bidirectional attention)로 변경하고, 입력 프롬프트에서 제공된 순서 대신 모델의 주의 값을 사용하여 세그먼트의 상대적 순서를 결정함으로써 세그먼트 수준에서 **위치 불변 추론(Position-INvariant inferencE, PINE)**을 가능하게 합니다. 위치 편향을 제거함으로써, LM-as-a-judge 및 검색 강화 QA와 같이 위치 편향이 널리 존재하는 다운스트림 작업에서 모델의 성능과 신뢰성이 향상됩니다. 특히, PINE은 언어 모델을 추론 쌍 평가에 적응시킬 때 매우 유용합니다: 대부분의 경우에서 8~10% 포인트의 성능 향상을 일관되게 제공하며, Llama-3-70B-Instruct가 RewardBench 추론 하위 집합에서 GPT-4-0125-preview보다 더 나은 성능을 발휘하도록 만듭니다.