번역이 포함된 일일 선별된 AI 연구 논문
현대의 파라미터 효율적 미세 조정(Parameter-Efficient Fine-Tuning, PEFT) 방법론 중 하나인 저순위 적응(Low-Rank Adaptation, LoRA)은 대규모 언어 모델(Large Language Models, LLMs)을 맞춤화하는 비용을 줄이지만, 여전히 각 다운스트림 데이터셋에 대해 별도의 최적화 과정을 필요로 합니다. 우리는 Drag-and-Drop LLMs(\textit{DnD})를 소개합니다. 이는 프롬프트 조건 파라미터 생성기로, 소수의 레이블 없는 작업 프롬프트를 직접 LoRA 가중치 업데이트로 매핑하여 작업별 훈련을 제거합니다. 경량화된 텍스트 인코더는 각 프롬프트 배치를 조건 임베딩으로 압축하고, 이를 계단식 초합성곱 디코더를 통해 전체 LoRA 행렬 세트로 변환합니다. 다양한 프롬프트-체크포인트 쌍으로 훈련된 후, DnD는 몇 초 내에 작업별 파라미터를 생성하며, i) 전체 미세 조정 대비 최대 12,000배 낮은 오버헤드, ii) 보이지 않은 상식 추론, 수학, 코딩, 멀티모달 벤치마크에서 가장 강력한 훈련된 LoRA 대비 평균 30%의 성능 향상, iii) 대상 데이터나 레이블을 본 적 없음에도 강력한 도메인 간 일반화 능력을 보여줍니다. 우리의 결과는 프롬프트 조건 파라미터 생성이 그래디언트 기반 적응의 대안으로 LLM을 빠르게 특수화하는 데 유효함을 입증합니다. 우리의 프로젝트는 https://jerryliang24.github.io/DnD{https://jerryliang24.github.io/DnD}에서 확인할 수 있습니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG) 시스템은 정보 검색과 질문 응답 분야에서 혁신을 가져왔지만, 기존의 텍스트 기반 청킹 방법은 복잡한 문서 구조, 다중 페이지 표, 내장된 그림, 그리고 페이지 경계를 넘는 문맥적 의존성을 처리하는 데 어려움을 겪습니다. 본 연구에서는 대형 멀티모달 모델(Large Multimodal Models, LMMs)을 활용하여 PDF 문서를 배치로 처리하면서도 의미적 일관성과 구조적 무결성을 유지하는 새로운 멀티모달 문서 청킹 접근법을 제안합니다. 우리의 방법은 교차 배치 문맥 보존 기능을 갖춘 구성 가능한 페이지 배치로 문서를 처리함으로써, 여러 페이지에 걸친 표, 내장된 시각 요소, 그리고 절차적 내용을 정확하게 처리할 수 있습니다. 우리는 수동으로 작성된 질문이 포함된 PDF 문서 데이터셋을 통해 이 접근법을 평가하였으며, 청크 품질과 하위 RAG 성능의 개선을 입증하였습니다. 우리의 시각 지향적 접근법은 기존의 일반 RAG 시스템에 비해 더 나은 정확도를 달성하며, 문서 구조와 의미적 일관성의 우수한 보존을 보여주는 질적 분석 결과를 제시합니다.
시각적 생성 분야에서 어텐션 메커니즘의 이차 복잡도는 높은 메모리와 계산 비용을 초래하며, 특히 고해상도 이미지나 다중 프레임 비디오 생성에 필요한 긴 토큰 시퀀스에서 더욱 두드러집니다. 이를 해결하기 위해, 기존 연구에서는 희소화(sparsification)와 양자화(quantization)와 같은 기법들을 탐구해왔습니다. 그러나 이러한 기법들은 낮은 밀도와 감소된 비트폭(bitwidth) 하에서 상당한 어려움에 직면합니다. 체계적인 분석을 통해, 우리는 이러한 어려움의 핵심 원인이 시각적 어텐션 패턴의 분산적이고 불규칙한 특성에서 비롯됨을 확인했습니다. 따라서, 이러한 패턴을 수용하기 위해 특수한 희소화 및 양자화 설계를 도입하는 대신, 우리는 어려움을 완화하기 위한 대안적 전략을 제안합니다: 어텐션 패턴을 *재구성*하는 것입니다. 시각적 특징 추출의 지역적 집합 특성에서 영감을 받아, 우리는 다양한 어텐션 패턴을 하드웨어 친화적인 블록 단위 패턴으로 통일하는 새로운 **패턴 인식 토큰 재정렬(PARO)** 기법을 설계했습니다. 이러한 통일은 희소화와 양자화를 상당히 단순화하고 개선합니다. 우리는 다양한 설계 선택의 성능-효율성 트레이드오프를 평가하고, 통일된 패턴에 맞춰진 방법론을 확정했습니다. 우리의 접근 방식인 **PAROAttention**은 무손실 메트릭을 유지하며, 완전 정밀도(FP) 기준선과 거의 동일한 결과를 달성하면서도 상당히 낮은 밀도(~20%-30%)와 비트폭(**INT8/INT4**)에서 동작하여, **1.9배**에서 **2.7배**의 종단 간 지연 시간 개선을 달성했습니다.
동적 환경에서 다중 구체화 에이전트를 조율하는 것은 인공지능의 핵심 과제로, 인지 기반 추론과 확장 가능한 협력 전략을 모두 요구합니다. 최근 연구들은 대형 언어 모델(LLM)을 다중 에이전트 계획에 활용해 왔지만, 시각-언어 모델(VLM)을 시각적 추론에 적용하는 연구는 아직 초기 단계에 머물러 있습니다. 그러나 이러한 VLM 기반 접근법은 다양한 구체화 유형을 지원하는 데 있어 한계가 있습니다. 본 연구에서는 구체화된 다중 에이전트 협력을 위해 특화된 첫 번째 계층적 벤치마크인 VIKI-Bench를 소개합니다. 이 벤치마크는 에이전트 활성화, 작업 계획, 궤적 인식이라는 세 가지 구조화된 수준을 포함하며, 다양한 로봇 구체화, 다중 시점 시각 관측, 그리고 시각적 입력에 기반한 추론을 평가하기 위한 구조화된 감독 신호를 제공합니다. VIKI-Bench의 유용성을 입증하기 위해, 우리는 사전 학습된 시각-언어 모델(VLM)을 Chain-of-Thought 주석이 달린 데모로 미세 조정한 후, 다단계 보상 신호 하에서 강화 학습을 수행하는 두 단계 프레임워크인 VIKI-R을 제안합니다. 광범위한 실험을 통해 VIKI-R이 모든 작업 수준에서 기준 방법들을 크게 능가함을 보여줍니다. 또한, 강화 학습이 이질적 에이전트 간의 구성적 협력 패턴의 출현을 가능하게 함을 입증합니다. VIKI-Bench와 VIKI-R은 구체화된 AI 시스템에서의 다중 에이전트, 시각 기반 협력 발전을 위한 통합 테스트베드와 방법론을 제공합니다.
디퓨전 기반 및 제어 가능한 비디오 생성의 최근 발전은 고품질이고 시간적으로 일관된 비디오 합성을 가능하게 하여 몰입형 인터랙티브 게임 경험의 기반을 마련했습니다. 그러나 현재의 방법들은 역동성, 일반성, 장기적 일관성 및 효율성 측면에서 한계를 보이며, 다양한 게임플레이 비디오를 생성하는 능력을 제한하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 게임 환경에서 고역동적 인터랙티브 비디오 생성을 위한 새로운 프레임워크인 Hunyuan-GameCraft를 소개합니다. 세밀한 액션 제어를 달성하기 위해, 우리는 표준 키보드 및 마우스 입력을 공유 카메라 표현 공간으로 통합하여 다양한 카메라 및 이동 작업 간의 원활한 보간을 가능하게 합니다. 그런 다음, 게임 장면 정보를 보존하면서 비디오 시퀀스를 자기회귀적으로 확장하는 하이브리드 히스토리 조건화 훈련 전략을 제안합니다. 또한, 추론 효율성과 플레이 가능성을 향상시키기 위해, 모델 경량화를 통해 계산 오버헤드를 줄이면서도 긴 시간적 시퀀스에서 일관성을 유지하여 복잡한 인터랙티브 환경에서 실시간 배포에 적합하도록 합니다. 이 모델은 100개 이상의 AAA 게임에서 수집된 100만 개 이상의 게임플레이 기록으로 구성된 대규모 데이터셋으로 훈련되어 광범위한 커버리지와 다양성을 보장하며, 정밀도와 제어력을 높이기 위해 주의 깊게 주석이 달린 합성 데이터셋으로 미세 조정됩니다. 이렇게 정제된 게임 장면 데이터는 시각적 충실도, 현실감 및 액션 제어 가능성을 크게 향상시킵니다. 광범위한 실험을 통해 Hunyuan-GameCraft가 기존 모델들을 크게 능가하며, 인터랙티브 게임 비디오 생성의 현실감과 플레이 가능성을 크게 발전시킴을 입증합니다.
최첨단 텍스트-투-스피치(TTS) 시스템은 단일 언어 환경에서 높은 자연스러움을 구현하지만, 특히 인도 언어를 대상으로 한 다국어 억양과 문맥에 적합한 감정을 포함한 음성 합성은 현재 프레임워크의 문화적 뉘앙스 차이로 인해 여전히 어려움을 겪고 있다. 본 논문은 힌디어와 인도 영어 억양에 특화된 다중 스케일 감정 모델링과 함께 음역을 보존하는 새로운 TTS 아키텍처를 소개한다. 우리의 접근 방식은 Parler-TTS 모델을 확장하여 언어별 음소 정렬 하이브리드 인코더-디코더 아키텍처와 원어민 말뭉치로 훈련된 문화 민감형 감정 임베딩 레이어를 통합하고, 잔여 벡터 양자화를 통한 동적 억양 코드 전환을 포함한다. 정량적 테스트 결과, 억양 정확도가 23.7% 향상되었으며(단어 오류율이 15.4%에서 11.8%로 감소), 원어민 청취자의 감정 인식 정확도는 85.3%로 METTS 및 VECL-TTS 기준선을 능가했다. 이 시스템의 독창성은 실시간으로 코드를 혼합할 수 있다는 점으로, "Namaste, <힌디어 구문>에 대해 이야기해 봅시다"와 같은 문장을 억양 전환 없이 생성하면서도 감정적 일관성을 유지할 수 있다. 200명의 사용자를 대상으로 한 주관적 평가에서 문화적 정확성에 대한 평균 의견 점수(MOS)는 4.2/5로, 기존 다국어 시스템보다 훨씬 우수했다(p<0.01). 이 연구는 확장 가능한 억양-감정 분리를 통해 남아시아 교육 기술 및 접근성 소프트웨어에 직접 적용 가능한 크로스-링구얼 합성을 더욱 실현 가능하게 만든다.
3D 파노라마 합성은 생성된 전방위 콘텐츠의 고품질 및 다양한 시각적 외관과 기하학적 구조를 요구하는 유망하면서도 도전적인 과제입니다. 기존 방법들은 3D 파노라마 데이터의 부족을 해결하기 위해 사전 학습된 2D 기반 모델에서 풍부한 이미지 사전 정보를 활용하지만, 3D 파노라마와 2D 단일 뷰 간의 비호환성으로 인해 그 효과가 제한됩니다. 본 연구에서는 2D 기반 모델의 연산자에 다중 평면 동기화를 적용함으로써, 이들의 기능을 전방위 도메인으로 원활하게 확장할 수 있음을 보여줍니다. 이 설계를 기반으로, 우리는 2D 기반 모델의 사전 정보를 최대한 재활용하여 다양한 외관과 정확한 기하학적 구조를 달성하면서도 다중 뷰 일관성을 유지하는 3D 파노라마 생성을 위한 다중 평면 RGB-D 확산 모델인 DreamCube를 추가로 소개합니다. 광범위한 실험을 통해 우리의 접근 방식이 파노라마 이미지 생성, 파노라마 깊이 추정, 그리고 3D 장면 생성에서의 효과성을 입증합니다.
본 보고서에서는 고해상도 및 세밀한 텍스처가 적용된 3D 자산을 생성하기 위한 강력한 3D 확산 모델 제품군인 Hunyuan3D 2.5를 소개합니다. Hunyuan3D 2.5는 이전 버전인 Hunyuan3D 2.0의 2단계 파이프라인을 유지하면서도, 형태 및 텍스처 생성 측면에서 상당한 발전을 이루었습니다. 형태 생성 측면에서는, 확장된 고품질 데이터셋, 모델 크기 및 컴퓨팅 자원을 활용하여 훈련된 새로운 형태 기반 모델인 LATTICE를 도입했습니다. 우리의 가장 큰 모델은 100억 개의 파라미터를 갖추고 있으며, 깔끔하고 매끄러운 메쉬 표면을 유지하면서도 정확한 이미지-3D 추적을 통해 선명하고 세밀한 3D 형태를 생성함으로써, 생성된 3D 형태와 수작업으로 제작된 3D 형태 간의 격차를 크게 줄였습니다. 텍스처 생성 측면에서는, Hunyuan3D 2.0 Paint 모델을 확장한 새로운 다중 뷰 아키텍처를 통해 물리 기반 렌더링(PBR)이 업그레이드되었습니다. 광범위한 평가를 통해 Hunyuan3D 2.5가 형태 및 종단 간 텍스처 생성 모두에서 이전 방법들을 크게 능가함을 확인했습니다.
비전-언어 모델(VLMs)은 다중 모달 이해에서 뛰어난 성능을 보이지만, 텍스트만을 디코딩하는 방식으로 인해 시각적 추론을 언어화해야 하므로 시각적 상상력이 요구되는 작업에서의 성능이 제한된다. 최근 연구에서는 VLMs이 명시적인 이미지를 생성하도록 훈련시키려는 시도가 있었으나, 무거운 이미지 생성 사전 훈련이 추론 능력을 저해하는 경우가 많았다. 인간이 정신적 이미지—시각적 단서의 내적 구성과 조작—를 통해 추론하는 방식에서 영감을 받아, 우리는 VLMs이 명시적인 이미지를 생성하지 않고도 교차된 다중 모달 궤적을 통해 추론할 수 있는지 조사한다. 이를 위해, 우리는 Mirage라는 기계 정신적 이미지 프레임워크를 제안한다. 이 프레임워크는 VLMs의 디코딩 과정에 일반 텍스트와 함께 잠재적 시각 토큰을 추가한다. 구체적으로, 모델이 "시각적으로 생각"하기로 선택할 때마다, 모델은 자신의 은닉 상태를 다음 토큰으로 재구성하여 픽셀 수준의 이미지를 생성하지 않고도 다중 모달 궤적을 이어간다. 먼저, 잠재 토큰을 실제 이미지 임베딩으로부터의 증류를 통해 지도한 후, 텍스트만을 사용한 지도로 전환하여 잠재 궤적이 작업 목표와 긴밀하게 일치하도록 한다. 이후 강화 학습 단계를 통해 다중 모달 추론 능력을 더욱 향상시킨다. 다양한 벤치마크에서의 실험 결과, Mirage는 명시적인 이미지 생성 없이도 더 강력한 다중 모달 추론을 가능하게 함을 보여준다.
3D AI 생성 콘텐츠(AIGC)는 게임, 영화, 디자인 분야에서 3D 모델 생성 속도를 크게 가속화한 열정적인 연구 분야입니다. 3D 생성을 혁신적으로 변화시킨 여러 획기적인 모델들이 개발되었음에도 불구하고, 3D 모델의 수집, 처리, 학습 과정의 복잡성으로 인해 이 분야는 여전히 연구자, 개발자, 디자이너들에게만 주로 접근 가능한 상태입니다. 이러한 문제를 해결하기 위해, 본 튜토리얼에서는 사례 연구로 Hunyuan3D 2.1을 소개합니다. 이 튜토리얼은 고해상도 텍스처가 적용된 3D 자산을 생성하는 고급 시스템인 Hunyuan3D 2.1을 사용하여 3D 데이터 처리, 3D 생성 모델 학습, 그리고 성능 평가에 대한 포괄적이고 단계별 가이드를 제공합니다. 이 시스템은 형태 생성을 위한 Hunyuan3D-DiT와 텍스처 합성을 위한 Hunyuan3D-Paint라는 두 가지 핵심 구성 요소로 이루어져 있습니다. 데이터 준비, 모델 아키텍처, 학습 전략, 평가 지표, 배포를 포함한 전체 워크플로우를 탐구할 것입니다. 이 튜토리얼을 마치면, 게임, 가상 현실, 산업 디자인 분야에 적합한 강력한 3D 생성 모델을 미세 조정하거나 개발할 수 있는 지식을 갖추게 될 것입니다.
현대의 다중 모달 대형 언어 모델(MLLMs)은 시간이 긴 동영상을 추론할 수 있지만, 키-값(KV) 캐시는 시간에 따라 선형적으로 증가하여 스마트폰, AR 안경, 엣지 로봇 등의 고정 메모리를 빠르게 초과한다. 기존의 압축 기법들은 전체 동영상과 사용자 쿼리가 오프라인에서 이용 가능하다고 가정하거나, 먼저 전체 캐시를 구축해야 하기 때문에 메모리가 스트림 길이에 비례하여 증가하는 문제가 여전히 존재한다. InfiniPot-V는 스트리밍 동영상 이해를 위해 하드웨어적, 길이 독립적인 메모리 상한을 강제하는 최초의 학습 없이도 적용 가능하며 쿼리와 무관한 프레임워크이다. 동영상 인코딩 과정에서 캐시를 모니터링하며, 사용자가 설정한 임계값에 도달하면 경량화된 압축 과정을 실행하여 (i) 시간 축 중복(TaR) 지표를 통해 시간적으로 중복된 토큰을 제거하고 (ii) 값-규범(VaN) 순위를 통해 의미적으로 중요한 토큰을 유지한다. 네 가지 오픈소스 MLLMs와 네 가지 장편 동영상 및 두 가지 스트리밍 동영상 벤치마크에서 InfiniPot-V는 GPU 메모리 사용량을 최대 94%까지 절감하며 실시간 생성 성능을 유지하고, 전체 캐시 정확도를 유지하거나 능가한다. 이는 다중 턴 대화에서도 마찬가지이다. 재학습이나 쿼리 정보 없이도 KV 캐시 병목 현상을 해소함으로써, InfiniPot-V는 온디바이스 스트리밍 동영상 어시스턴트를 위한 격차를 해소한다.
통합 이미지 이해 및 생성은 다중모달 인공지능 분야에서 유망한 패러다임으로 부상하고 있다. 최근의 진전에도 불구하고, 이러한 통합 모델을 위한 최적의 아키텍처 설계는 여전히 해결해야 할 과제로 남아 있다. 본 연구에서는 먼저 이해 및 생성 작업을 위한 작업별 전문가 모델과 현재의 통합 모델들의 모달리티 정렬 행동을 분석한다. 우리의 분석은 중요한 관찰을 드러낸다: 이해 작업은 네트워크 깊이에 걸쳐 점진적으로 증가하는 모달리티 정렬로부터 이익을 얻으며, 이는 더 나은 이해를 위한 의미 정보를 구축하는 데 도움을 준다; 반면, 생성 작업은 다른 경향을 따른다: 모달리티 정렬은 초기 층에서 증가하지만 깊은 층에서는 공간적 세부 사항을 복원하기 위해 감소한다. 이러한 상이한 정렬 패턴은 완전히 공유된 트랜스포머 백본에서 근본적인 충돌을 일으키며, 균일한 표현 흐름은 종종 두 작업 간의 성능 저하로 이어진다. 이러한 발견에 동기를 부여받아, 우리는 UniFork라는 새로운 Y자형 아키텍처를 제안한다. 이 아키텍처는 얕은 층을 교차 작업 표현 학습을 위해 공유하면서, 더 깊은 층에서는 작업별 분기를 사용하여 작업 간 간섭을 방지한다. 이 설계는 공유 학습과 작업 전문화를 효과적으로 균형 잡는다. 광범위한 절제 실험을 통해, UniFork가 기존의 완전히 공유된 트랜스포머 아키텍처를 지속적으로 능가하며, 작업별 모델과 동등하거나 더 나은 성능을 달성함을 입증한다.
비전-언어-행동(Vision-Language-Action, VLA) 모델이 전통적인 로봇 공학의 모방 학습에 비해 가지는 한 가지 약속은, 대규모 비전-언어 모델(Vision-Language Models, VLMs)의 광범위한 일반화 능력을 활용하여 다재다능한 "일반주의" 로봇 정책을 생성하는 것이다. 그러나 현재 VLA에 대한 평가는 여전히 불충분하다. 전통적인 모방 학습 벤치마크는 언어 지시가 부족하기 때문에 적합하지 않다. 언어를 통합한 새로운 VLA 벤치마크는 종종 제한된 평가 작업을 포함하며, VLM 사전 학습이 하위 로봇 정책의 일반화 능력에 실제로 얼마나 기여하는지 조사하려는 의도가 없다. 한편, 많은 연구는 서로 다른 기관에서 독립적으로 설계한 실제 로봇 설정에 의존하고 있어 재현성과 접근성에 장벽을 만든다. 이러한 격차를 해결하기 위해, 우리는 언어 지시, 비전, 물체에 걸친 10개의 하위 범주에 걸친 50개의 시뮬레이션 기반 작업으로 구성된 통합 프로빙 스위트를 소개한다. 우리는 이 스위트를 통해 여러 최신 VLA 아키텍처를 체계적으로 평가하여 그들의 일반화 능력을 이해한다. 우리의 결과는 VLM 백본이 VLA에 강력한 지각 이해와 높은 수준의 계획 능력(우리가 '좋은 의도'라고 부르는)을 부여하지만, 이는 정확한 운동 실행으로 안정적으로 이어지지 않음을 보여준다: 분포 외 관측에 직면했을 때, 정책은 종종 일관된 의도를 보이지만 행동 실행에서 실패한다. 또한, 행동 데이터에 대한 미세 조정은 원래 VLM의 일반주의 추론 능력을 훼손할 수 있다. 우리는 향후 VLA를 위한 표준 벤치마크로 사용되고 지각-행동 간격을 좁히는 연구를 촉진하기 위해 우리의 작업 스위트와 평가 코드를 공개한다. 소스 코드를 포함한 더 많은 정보는 https://ai4ce.github.io/INT-ACT/에서 확인할 수 있다.
이상적인 교통 시뮬레이터는 자율주행 시스템이 실제 배포 중에 경험하는 현실적인 장거리 점대점 이동을 재현한다. 기존 모델과 벤치마크는 주로 초기 에이전트에 대한 폐루프 모션 시뮬레이션에 초점을 맞추고 있다. 이는 장기 시뮬레이션에 있어 문제가 된다. 에고 차량이 새로운 지역으로 진입함에 따라 에이전트들이 장면에 들어오고 나가기 때문이다. 본 연구에서는 폐루프 모션 시뮬레이션과 장면 생성을 교차적으로 수행하는 통합형 다음 토큰 예측 모델인 InfGen을 제안한다. InfGen은 폐루프 모션 시뮬레이션과 장면 생성 모드 간에 자동으로 전환하며, 안정적인 장기 롤아웃 시뮬레이션을 가능하게 한다. InfGen은 단기(9초) 교통 시뮬레이션에서 최신 기술 수준을 보여주며, 장기(30초) 시뮬레이션에서는 다른 모든 방법을 크게 능가한다. InfGen의 코드와 모델은 https://orangesodahub.github.io/InfGen에서 공개될 예정이다.
사전 훈련된 전문가 모델들을 결합하는 것은 확장 가능한 다중 모달리티 추론에 상당한 잠재력을 제공하지만, 입력 모달리티의 증가하는 다양성과 작업 복잡성으로 인해 통합 프레임워크를 구축하는 것은 여전히 어려운 과제입니다. 예를 들어, 의학 진단은 구조화된 임상 테이블에 대한 정밀한 추론을 요구하는 반면, 금융 예측은 플롯 기반 데이터를 해석하여 정보에 기반한 예측을 내리는 데 의존합니다. 이러한 과제를 해결하기 위해, 우리는 다양한 및 독특한 도메인에서 효과적인 다중 모달리티 추론을 가능하게 하기 위해 여러 전문가 모델의 모달리티 및 작업 인식 집계를 수행하는 훈련이 필요 없는 프레임워크인 MEXA를 소개합니다. MEXA는 입력 모달리티와 작업별 추론 요구 사항(즉, 기술)에 기반하여 전문가 모델을 동적으로 선택합니다. 각 전문가 모델은 특정 모달리티 작업 쌍에 특화되어 해석 가능한 텍스트 추론 출력을 생성합니다. MEXA는 이러한 출력들을 대형 추론 모델(LRM)을 사용하여 집계하고 추론하여 최종 답변을 생성합니다. 이 모듈식 설계는 추가적인 훈련 오버헤드 없이 다양한 도메인에서 유연하고 투명한 다중 모달리티 추론을 가능하게 합니다. 우리는 비디오 추론, 오디오 추론, 3D 이해, 의학 QA 등 다양한 다중 모달리티 벤치마크에서 우리의 접근 방식을 광범위하게 평가합니다. MEXA는 강력한 다중 모달리티 베이스라인에 비해 지속적으로 성능 향상을 제공하며, 다양한 다중 모달리티 추론 작업에서 우리의 전문가 기반 선택 및 집계의 효과성과 광범위한 적용 가능성을 강조합니다.
정치적 관점 요약과 같은 실제 환경에서 편향되지 않은 요약문을 생성하는 것은 대규모 언어 모델(LLM)의 중요한 응용 분야로 남아 있습니다. 그러나 기존 평가 프레임워크는 적용 가능성을 검증하지 않은 채 커버리지와 충실도와 같은 핵심 속성을 측정하기 위해 전통적인 지표에 의존하고 있으며, 개선된 요약기를 개발하기 위한 노력은 아직 초기 단계에 있습니다. 우리는 이러한 격차를 해결하기 위해 (1) 관점 요약 품질을 측정하기 위한 신뢰할 수 있는 지표를 식별하고, (2) 제로샷 추론을 넘어선 LLM 기반 방법의 효용성을 조사합니다. 구체적으로, 우리는 인간 주석을 사용하여 지표 신뢰도를 벤치마킹하기 위한 테스트 세트를 구축하고, 언어 모델 기반 지표가 강력한 평가자로 입증되며 전통적인 지표들이 이에 비해 성능이 떨어진다는 것을 보여줍니다. 이러한 지표를 사용하여, 우리는 재순위 기반 방법이 강력한 결과를 내며, 합성적으로 생성되고 재순위 레이블이 지정된 데이터를 사용한 선호도 튜닝이 성능을 더욱 향상시킨다는 것을 보여줍니다. 우리의 연구 결과는 관점 요약 방법의 신뢰할 수 있는 평가와 개발에 기여하고자 합니다.
생성 모델의 출력에 워터마크를 삽입하는 것은 그 출처를 추적하기 위한 유망한 접근법으로 부상했다. 자동회귀적 이미지 생성 모델과 그 오용 가능성에 대한 상당한 관심에도 불구하고, 이전 연구에서는 토큰 수준에서 그 출력에 워터마크를 삽입하려는 시도가 없었다. 본 연구에서는 언어 모델 워터마킹 기법을 이 설정에 적용하여 최초로 그러한 접근법을 제시한다. 우리는 주요 과제를 확인했다: 생성된 이미지 토큰을 다시 토큰화할 때 토큰 시퀀스가 크게 변경되어 워터마크가 사실상 지워지는 역순환 일관성(RCC)의 부재이다. 이를 해결하고 일반적인 이미지 변환, 신경망 기반 압축, 제거 공격에 대해 우리의 방법을 견고하게 만들기 위해, 우리는 (i) RCC를 개선하는 맞춤형 토크나이저-디토크나이저 미세 조정 절차와 (ii) 보완적인 워터마크 동기화 계층을 도입했다. 우리의 실험 결과에 따르면, 이 접근법은 이론적으로 근거를 둔 p-값을 통해 신뢰할 수 있고 견고한 워터마크 검출을 가능하게 한다.
언어 모델 역추적은 언어 모델 출력만을 사용하여 숨겨진 프롬프트를 복구하는 것을 목표로 한다. 이 능력은 API로 보호된 언어 모델의 시스템 메시지에서 개인 정보가 유출되는 등, 언어 모델 배포에서 보안과 책임성에 중요한 함의를 가진다. 우리는 새로운 방법인 로그 확률 시퀀스로부터의 프롬프트 역추적(PILS)을 제안한다. 이 방법은 여러 생성 단계에 걸쳐 모델의 다음 토큰 확률로부터 단서를 얻어 숨겨진 프롬프트를 복구한다. 우리의 방법은 언어 모델의 벡터 값 출력이 저차원 부분공간을 차지한다는 핵심 통찰에 의해 가능해진다. 이를 통해 여러 생성 단계에 걸친 전체 다음 토큰 확률 분포를 선형 맵을 사용하여 무손실로 압축할 수 있으며, 역추적을 위해 더 많은 출력 정보를 활용할 수 있다. 우리의 접근 방식은 숨겨진 프롬프트를 복구하는 기존 최신 방법에 비해 큰 성능 향상을 보여주며, 테스트 세트에서 정확한 복구율이 2~3.5배 높아졌고, 한 경우에는 복구율이 17%에서 60%로 증가했다. 또한 우리의 방법은 놀라울 정도로 좋은 일반화 성능을 보인다. 예를 들어, 16단계 생성으로 훈련된 역추적기는 테스트 시 단계 수를 32로 늘렸을 때 프롬프트 복구율이 5~27점 더 높아졌다. 더 나아가, 우리의 방법은 숨겨진 시스템 메시지를 복구하는 더 어려운 작업에서도 강력한 성능을 보였다. 또한 우리는 프롬프트 복구에서 직반복의 역할을 분석하고, 로짓 기반 역추적기를 위한 새로운 크로스-패밀리 모델 전이 방법을 제안한다. 우리의 연구 결과는 다음 토큰 확률이 이전에 알려진 것보다 역추적 공격에 훨씬 더 취약한 공격 표면임을 보여준다.