번역이 포함된 일일 선별된 AI 연구 논문
최근 대형 언어 모델(LLMs)의 발전은 강력한 일반적 추론 능력을 보여주었지만, 금융 추론에서의 효과는 아직 충분히 탐구되지 않았습니다. 본 연구에서는 금융 텍스트, 표 형식 데이터, 그리고 방정식을 포함한 세 가지 복잡한 금융 작업에 대해 16가지 강력한 추론 및 일반 LLMs를 철저하게 평가하며, 수치 추론, 표 해석, 금융 용어 이해, 장기적 맥락 처리, 그리고 방정식 기반 문제 해결을 평가합니다. 결과는 더 나은 데이터셋 및 사전 훈련이 금융 추론을 향상시키지만, CoT 세부 튜닝과 같은 일반적인 향상은 항상 일관된 이득을 가져오지는 않음을 보여줍니다. 또한, 모든 추론 전략은 장기적 맥락 및 다중 테이블 작업에서 성능을 향상시키는 데 어려움을 겪습니다. 이러한 한계를 극복하기 위해, 도메인별 추론 경로를 사용한 CoT 세부 튜닝 및 강화 학습을 통해 Llama-3.1-8B-Instruct를 기반으로 한 금융 추론 강화 모델을 개발합니다. 단순한 금융 데이터셋으로의 세부 튜닝조차도, 우리 모델은 모든 8B 모델과 심지어 평균적으로 Llama3-70B-Instruct 및 Llama3.1-70B-Instruct를 능가하는 일관된 10% 성능 향상을 달성합니다. 결과는 금융 작업에서 도메인별 적응이 필요함을 강조하며, 다중 테이블 추론, 장기적 맥락 처리, 그리고 금융 용어 이해와 같은 미래 방향성을 강조합니다. 모든 데이터셋, 모델, 코드는 공개적으로 이용 가능합니다. 더불어, 미래 데이터셋 및 모델을 벤치마킹하기 위한 리더보드를 소개합니다.
현대의 대규모 언어 모델(LLM)은 순수한 계산 제약이 아닌 현재 하드웨어에서 통신 병목 현상을 종종 겪습니다. Multi-head Latent Attention(MLA)은 키-값(KV) 레이어에서 저랭크 행렬을 사용하여 압축된 잠재 KV 상태를 캐싱할 수 있도록 함으로써 이 도전 과제에 대처합니다. 이 방법은 기존의 다중 헤드 어텐션에 비해 KV 캐시 크기를 크게 줄여 빠른 추론을 이끌어냅니다. 게다가, MLA는 추가 계산을 교환하여 통신 오버헤드를 줄이기 위해 표현력을 높이기 위해 상향 투영 행렬을 사용합니다. MLA는 Deepseek V2/V3/R1에서 효율성과 효과를 입증했지만, 많은 주요 모델 제공 업체는 여전히 Group Query Attention(GQA)를 사용하고 있으며 MLA를 채택할 계획을 발표하지 않았습니다. 본 논문에서는 GQA가 언제나 같은 KV 캐시 오버헤드를 유지하면서 MLA로 표현될 수 있음을 보여주지만 그 역은 성립하지 않습니다. MLA의 보다 넓은 사용을 촉진하기 위해 우리는 **TransMLA**를 소개합니다. 이는 널리 사용되는 GQA 기반 사전 훈련 모델(LLaMA, Qwen, Mixtral 등)을 MLA 기반 모델로 변환하는 사후 훈련 방법입니다. 변환 후 모델은 KV 캐시 크기를 증가시키지 않고 표현력을 향상시키기 위해 추가 훈련을 받을 수 있습니다. 게다가, 우리는 변환된 모델에서 저지연을 유지하기 위한 MLA 특화 추론 가속 기술을 개발할 계획이며, 이를 통해 Deepseek R1의 효율적인 증류를 가능하게 할 것입니다.
이전의 다국어 벤치마크는 주로 간단한 이해 작업에 초점을 맞추었지만, 대형 언어 모델(LLMs)의 경우에는 지시 따르기, 추론, 긴 맥락 이해, 코드 생성 등에 능숙함을 강조합니다. 그러나 이러한 고급 능력을 언어별로 측정하는 것은 미개발된 분야입니다. 이러한 격차를 해소하기 위해 우리는 BenchMAX를 소개합니다. BenchMAX는 다양한 방식의 다국어 평가 벤치마크로, 이러한 중요한 능력을 언어별로 공정하게 비교할 수 있게 합니다. 고품질을 유지하기 위해 영어에서 16개 다른 언어로 기계 번역된 데이터를 기반으로 각 작업 내의 각 샘플을 세 가지의 독자적인 모국어 스피커 주석자가 독립적으로 주석을 달았습니다. 게다가 데이터셋 구축에서 비롯된 새로운 번역 과제를 제시합니다. BenchMAX에서의 포괄적인 실험은 언어별로 핵심 능력의 효과가 다양하게 나타나며, 단순히 모델 크기를 확장하는 것으로 교정할 수 없는 성능 격차를 강조합니다. BenchMAX는 다양한 언어 모델의 발전을 촉진하기 위한 유망한 시험대를 제공하는 포괄적인 다국어 평가 플랫폼으로 작용합니다. 데이터셋과 코드는 공개적으로 접근 가능합니다.
우리는 학생과 교사 간의 컴퓨트 예산 및 할당을 기반으로 증류된 모델 성능을 추정하는 증류 스케일링 법칙을 제공합니다. 우리의 연구 결과는 대규모 증류 사용과 관련된 위험을 줄입니다. 이제 교사와 학생 모델 모두를 위한 컴퓨트 할당은 학생 성능을 극대화하기 위해 수행될 수 있습니다. 우리는 교사가 존재하는 경우 또는 교사가 훈련이 필요한 경우에 대한 컴퓨트 최적의 증류 레시피를 제공합니다. 많은 학생을 증류해야 하는 경우나 이미 교사가 있는 경우, 증류는 학생 크기와 함께 예측 가능하게 증가하는 컴퓨트 수준까지 지도 사전 훈련을 능가합니다. 하나의 학생을 증류하고 교사도 훈련이 필요한 경우, 지도 학습 대신 수행해야 합니다. 더불어, 증류에 대한 우리의 대규모 연구를 통해 제공된 통찰력은 증류에 대한 우리의 이해를 높이고 실험 설계에 정보를 제공합니다.
텍스트 조건 이미지 생성은 최근 몇 년간 상당한 관심을 받아오며, 점차적으로 더 긴 그리고 포괄적인 텍스트 프롬프트를 처리하고 있습니다. 일상생활에서는 광고, 인포그래픽, 간판과 같은 맥락에서 밀집하고 복잡한 텍스트가 나타나는데, 여기서 텍스트와 시각 자료의 통합은 복잡한 정보 전달에 중요합니다. 그러나 이러한 발전에도 불구하고, 긴 형식의 텍스트를 포함한 이미지 생성은 여전히 지속적인 도전으로 남아 있습니다. 이는 기존 데이터셋의 한계 때문인데, 이들은 주로 더 짧고 간단한 텍스트에 초점을 맞추고 있기 때문입니다. 이러한 공백을 해결하기 위해, 우리는 텍스트 조건 이미지 생성에서 긴 텍스트 렌더링을 평가하기 위해 특별히 설계된 혁신적인 데이터셋인 TextAtlas5M을 소개합니다. 저희 데이터셋은 다양한 데이터 유형을 거쳐 생성된 500만 장의 긴 텍스트 이미지로 구성되어 있어, 대규모 생성 모델의 긴 텍스트 이미지 생성에 대한 포괄적인 평가를 가능하게 합니다. 또한, 3가지 데이터 도메인을 통해 3000개의 인간 개선 테스트 세트 TextAtlasEval를 선별하여, 텍스트 조건 생성을 위한 가장 포괄적인 벤치마크 중 하나를 수립하였습니다. 평가 결과는 TextAtlasEval 벤치마크가 가장 선진적인 프로프리터리 모델들 (예: GPT4o with DallE-3)에도 상당한 어려움을 제시하며, 이들의 오픈 소스 상대편들은 더 큰 성능 격차를 보여줍니다. 이러한 증거들은 TextAtlas5M을 향후 세대의 텍스트 조건 이미지 생성 모델을 교육하고 평가하는 데 유용한 데이터셋으로 위치시킵니다.
최근 대규모 데이터셋과 사전 훈련된 확산 모델에 의해 주도되는 이미지 조명 모델의 최신 발전은 일관된 조명의 부여를 가능케 했습니다. 그러나 비디오 조명은 여전히 주로 과도한 훈련 비용과 다양하고 고품질의 비디오 조명 데이터셋 부족으로 인해 뒤처지고 있습니다. 이미지 조명 모델을 프레임 단위로 간단히 적용하면 조명 원본의 불일치 및 재조명된 외관의 불일치로 인해 생성된 비디오에서 깜빡임이 발생하는 여러 문제가 발생합니다. 본 연구에서는 시간적으로 부드러운 비디오 조명을 달성하기 위한 교육 필요 없는 Light-A-Video 방법을 제안합니다. 이미지 조명 모델에서 적응된 Light-A-Video는 조명 일관성을 향상시키기 위해 두 가지 주요 기술을 도입합니다. 첫째, 우리는 일관된 조명 주의 (CLA) 모듈을 설계하여 배경 조명 원본의 생성을 안정화하기 위해 셀프 어텐션 레이어 내에서 프레임 간 상호 작용을 강화합니다. 둘째, 빛 전달 독립성의 물리적 원리를 활용하여 소스 비디오의 외관과 재조명된 외관 사이에 선형 블렌딩을 적용하고 조명의 부드러운 시간적 전환을 보장하기 위해 Progressive Light Fusion (PLF) 전략을 사용합니다. 실험 결과, Light-A-Video는 이미지 품질을 유지하면서 재조명된 비디오의 시간적 일관성을 향상시키며 프레임 간 일관된 조명 전환을 보장합니다. 프로젝트 페이지: https://bujiazi.github.io/light-a-video.github.io/.
본 연구에서는 3D를 고려한 텍스트-비디오 생성을 위한 혁신적인 프레임워크 인 CineMaster를 제안합니다. 우리의 목표는 사용자에게 전문 영화 감독과 유사한 조작 가능성을 부여하는 것입니다: 장면 내 객체의 정확한 배치, 3D 공간에서의 객체 및 카메라의 유연한 조작, 그리고 렌더링된 프레임에 대한 직관적인 레이아웃 제어. 이를 달성하기 위해 CineMaster는 두 단계로 작동합니다. 첫 번째 단계에서는 사용자가 객체 바운딩 박스를 배치하고 3D 공간 내에서 카메라 움직임을 정의하여 3D를 고려한 조건부 신호를 직관적으로 구성할 수 있는 대화식 워크플로우를 설계합니다. 두 번째 단계에서는 렌더링된 깊이 맵, 카메라 궤적 및 객체 클래스 레이블로 구성된 이러한 제어 신호가 텍스트-비디오 확산 모델의 지침 역할을 하여 사용자가 의도한 비디오 콘텐츠를 생성하도록 보장합니다. 또한, 3D 객체 움직임 및 카메라 위치 주석이 포함된 야외 데이터셋의 희소성을 극복하기 위해 대규모 비디오 데이터에서 3D 바운딩 박스 및 카메라 궤적을 추출하는 자동화된 데이터 주석 파이프라인을 신중히 구축합니다. 방대한 질적 및 양적 실험을 통해 CineMaster가 기존 방법을 크게 능가하며 현저한 3D를 고려한 텍스트-비디오 생성을 구현한다는 것을 입증합니다. 프로젝트 페이지: https://cinemaster-dev.github.io/.
다음 토큰 예측은 대형 언어 모델 사전 훈련에 사용되는 표준 훈련 목표입니다. 토큰 수준의 난해도를 최적화함으로써 표현이 학습됩니다. 우리는 연속적인 개념 혼합 (CoCoMix)이라는 새로운 사전 훈련 프레임워크를 제안합니다. 이 프레임워크는 이산적인 다음 토큰 예측과 연속적인 개념을 결합합니다. 구체적으로, CoCoMix는 사전 훈련된 희소 오토인코더로부터 학습된 연속적인 개념을 예측하고 이를 모델의 숨겨진 상태에 섞어 토큰 숨겨진 표현과 교차로 배치합니다. 언어 모델링 및 하위 추론 작업을 포함한 여러 벤치마크 실험을 통해 CoCoMix가 더 샘플 효율적이며 표준 다음 토큰 예측, 지식 증류 및 일시 중지 토큰 삽입을 일관되게 능가함을 보여줍니다. 개념 학습과 교차 배치를 모두 결합하는 것이 성능 향상에 중요하다는 것을 발견했습니다. 더 나아가, CoCoMix는 예측된 개념을 직접 검사하고 수정할 수 있도록 함으로써 해석 가능성과 조절 가능성을 향상시킵니다. 이는 모델의 내부 추론 과정을 안내하는 투명한 방법을 제공합니다.
현재 GUI 에이전트들은 GUI 요소 그라운딩에서 탁월한 성과를 거두었습니다. 그러나 계획 수립은 초기 환경 상태에 대한 민감성 때문에 여전히 매우 어려운 과제입니다. 특히, 초기 상태에 약간의 차이가 있는 경우-예를 들어 대상 소프트웨어가 열리지 않았거나 인터페이스가 기본 상태가 아닌 경우-계획 오류가 발생하는 경우가 많습니다. 이 문제는 실제 사용자 시나리오에서 널리 퍼져 있지만 기존의 벤치마크는 이를 평가하지 못합니다. 본 논문에서는 실제 컴퓨터-사용자 상호작용을 시뮬레이션하기 위해 다양한 초기 상태로 GUI 작업을 설계하는 새로운 GUI 벤치마크인 WorldGUI를 제안합니다. 이 벤치마크는 PowerPoint, VSCode, Adobe Acrobat을 포함한 10가지 인기 있는 소프트웨어 응용 프로그램에 걸쳐 다양한 작업을 포함하고 있습니다. 또한, 동적 GUI 자동화 작업의 어려움에 대응하기 위해 비판 메커니즘을 활용하는 종합적인 프레임워크인 GUI-Thinker를 제안합니다. 실험 결과는 GUI-Thinker가 WorldGUI 작업의 성공률에서 Claude-3.5 (컴퓨터 사용)를 14.9% 능가한다는 것을 입증합니다. 이 개선은 우리의 비판적 사고 기반 프레임워크가 GUI 자동화를 향상시키는 데 효과적임을 강조합니다.
선형 시퀀스 모델링 방법인 선형 어텐션은 시퀀스 길이에 대해 선형 시간 훈련 및 일정한 메모리 추론과 같은 이점을 제공합니다. 그러나 기존의 시퀀스 병렬화(SP) 방법은 선형 어텐션의 오른쪽-제품-먼저 특성에 최적화되지 않았거나 링-스타일 통신 전략을 사용하여 계산 병렬화를 제한하여 분산 시스템에서 더 긴 시퀀스에 대한 확장성을 제한합니다. 본 논문에서는 매우 긴 입력 시퀀스로 선형 어텐션 트랜스포머 모델을 훈련할 때 통신 및 계산 병렬화를 향상시키기 위한 새로운 SP 방법인 LASP-2를 소개합니다. 이전 작업인 LASP와 비교하여, LASP-2는 선형 어텐션 레이어에 대한 SP의 최소 통신 요구 사항을 재고하고, LASP의 전체 통신-계산 워크플로우를 재구성합니다. 이렇게 하면 중간 메모리 상태에서 하나의 AllGather 집합 통신만 필요하며, 이 크기는 시퀀스 길이와 독립적이어서 통신 및 계산 병렬화 및 그들의 중첩을 크게 향상시킵니다. 또한, 표준 어텐션 모듈에 유사한 통신 재설계를 적용하여 선형 및 표준 어텐션 레이어를 혼합하는 하이브리드 모델에 대한 효율적인 SP 솔루션을 제공하기 위해 LASP-2를 LASP-2H로 확장합니다. 선형 어텐션을 표준 어텐션으로 대체한 Llama3의 변형인 Linear-Llama3 모델에서 LASP-2 및 LASP-2H의 효과를 입증하는 평가를 수행했습니다. 특히, 64개의 GPU에서 2048K 시퀀스 길이로 LASP보다 15.2% 빠른 훈련 속도 향상 및 Ring Attention보다 36.6% 빠른 훈련 속도 향상을 달성했습니다. 코드는 다음의 일부로 공개되었습니다: https://github.com/OpenSparseLLMs/Linear-MoE.
현재 대규모 언어 모델(Large Language Models, LLMs)의 개발에서 장기 목표를 달성하는 능력은 주요 과제입니다. 이를 해결하기 위해 사전 훈련된 LLMs는 강화 학습(Reinforcement Learning, RL)을 사용하여 주어진 목표를 최적화하는 해결책을 탐색하기 위해 세밀하게 조정될 수 있습니다. 그러나 LLMs와의 탐사는 어렵습니다. 새로운 해결책을 발견하고 사전 훈련된 모델에 충분히 가까이 유지하여 기본 능력을 저하시키지 않도록 균형을 유지해야 합니다. 이는 일반적으로 Kullback-Leibler (KL) 페널티로 제어됩니다. 본 논문에서는 간단한 산술 작업에서 소규모 언어 모델의 탐사 역학을 조사합니다. 사전 훈련의 정도가 탐사에 미치는 영향을 보여주고 최종 결과에 미치는 영향이 큰 "중요 토큰"의 중요성을 입증합니다. 따라서, 우리는 KL 페널티에 간단한 수정을 도입하여 중요 토큰에 대한 탐사를 선호하고 RL 세밀 조정 단계의 효율성을 높이는 방법을 제시합니다.
최근 확산 모델을 기반으로 한 캐릭터 이미지 애니메이션 방법들은 '누구든지 애니메이션'과 같이 일관성 있고 일반화된 캐릭터 애니메이션을 생성하는 데 상당한 진전을 이루었습니다. 그러나 이러한 방식들은 캐릭터와 그들의 환경 사이에 합리적인 연관성을 만들어내지 못합니다. 이 한계를 극복하기 위해, 우리는 환경 affordance를 갖는 캐릭터를 애니메이션화하기 위한 '누구든지 애니메이션 2'를 제안합니다. 소스 비디오로부터 모션 신호를 추출하는 것을 넘어, 우리는 추가로 조건부 입력으로 환경적 표현을 캡처합니다. 환경은 캐릭터를 제외한 영역으로 정의되며, 우리의 모델은 이러한 영역을 캐릭터로 채워 환경적 맥락을 유지하면서 일관성을 유지합니다. 캐릭터와 환경 간의 관계를 더 효과적으로 특성화하는 형상에 중립적인 마스크 전략을 제안합니다. 또한 객체 상호작용의 충실도를 향상시키기 위해, 상호작용하는 객체의 특성을 추출하기 위해 객체 가이더를 활용하고 특성 주입을 위해 공간 블렌딩을 사용합니다. 더불어, 모델이 더 다양한 모션 패턴을 처리할 수 있도록 하는 자세 변조 전략을 도입합니다. 실험 결과는 제안된 방법의 우수한 성능을 입증합니다.
최근 AI-for-math는 순수 수학 분야에서 큰 발전을 이루었지만, 응용 수학 분야 중 특히 PDE(편미분방정식)는 그 실제 세계 응용에도 불구하고 미개척된 상태입니다. 본 연구에서는 PDE-Controller라는 프레임워크를 제시합니다. 이 프레임워크는 대규모 언어 모델(LLMs)이 편미분방정식(PDEs)에 의해 통제되는 시스템을 제어할 수 있도록 합니다. 저희의 접근 방식은 LLMs가 비공식적인 자연어 지시를 형식적 명세로 변환하고, 추론 및 계획 단계를 실행하여 PDE 제어의 유틸리티를 향상시킬 수 있게 합니다. 우리는 인간이 작성한 사례와 2백만 개의 합성 샘플 데이터셋, 수학 추론 모델, 그리고 혁신적인 평가 지표로 이루어진 종합적인 솔루션을 구축했으며, 이 모든 것은 상당한 노력이 필요합니다. 저희의 PDE-Controller는 최신 오픈 소스 및 GPT 모델을 유도하는 것보다 추론, 자동 형식화, 프로그램 합성에서 현저한 성과를 거두었으며, PDE 제어의 유틸리티 향상에서 최대 62%의 성능 향상을 달성했습니다. 언어 생성과 PDE 시스템 간의 간극을 메움으로써, 우리는 LLMs가 복잡한 과학 및 공학적 도전 과제에 대응하는 잠재력을 입증합니다. 모든 데이터, 모델 체크포인트 및 코드는 https://pde-controller.github.io/에서 공개할 예정입니다.
직접 선호도 최적화(Direct Preference Optimization, DPO) 및 그 변형은 언어 모델을 인간의 선호도에 맞추는 데 점점 더 인기를 얻고 있습니다. 이러한 방법은 모델이 선택(또는 선호) 및 거부(또는 비선호) 응답을 더 잘 구별하도록 가르치는 것을 목표로 합니다. 그러나 이전 연구에서 선택된 응답의 확률이 종종 훈련 중에 감소한다는 현상인 확률 변위가 식별되었습니다. 이 도전에 대처하기 위해 본 연구에서는 선택된 확률의 분포를 조절할 수 있는 \method를 소개합니다. 그리고 \method가 선택된 확률을 향상시키는 것과 보상 여유를 희생하는 것 사이의 기본적인 상충 관계를 이론적 분석과 실험적 검증을 통해 뒷받침하고 있음을 보여줍니다. 더 나아가, MT-Bench 및 설계된 승률 실험과 같은 하류 작업에서 \method가 DPO보다 우월함을 입증합니다. 이 연구는 DPO의 확률 변위 문제가 간단하고 이론적으로 근거 있는 해결책으로 효과적으로 완화될 수 있다는 것을 보여줍니다. 저희의 코드는 https://github.com/Meaquadddd/DPO-Shift에서 확인할 수 있습니다.
최근 대형 언어 모델(Large Language Models, LLMs)은 128K에서 1M 토큰에 이르는 긴 문맥을 지원합니다. 이러한 능력을 평가하는 인기 있는 방법 중 하나는 바늘-건초더미(needle-in-a-haystack, NIAH) 테스트인데, 이는 "바늘"(관련 정보)을 "건초더미"(긴 무관한 문맥)에서 검색하는 것을 포함합니다. 이 접근의 확장에는 분산 요소 증가, 사실 연쇄, 문맥 내 추론 등이 포함됩니다. 그러나 이러한 평가에서 모델은 바늘과 건초더미 사이의 기존의 명백한 일치를 활용하여 작업을 단순화할 수 있습니다. 이에 대응하기 위해 우리는 NoLiMa를 소개합니다. 이는 NIAH를 확장한 벤치마크로, 질문과 바늘 간의 어휘적 중첩이 최소화된 신중하게 설계된 바늘 세트를 갖추고 있어 모델이 바늘을 건초더미 내에서 찾기 위해 잠재적 연관성을 추론해야 합니다. 우리는 적어도 128K 토큰의 문맥을 지원한다고 주장하는 12개의 인기 있는 LLM을 평가합니다. 이 모델들은 짧은 문맥(<1K)에서는 잘 수행하지만, 문맥 길이가 증가함에 따라 성능이 크게 저하됩니다. 예를 들어 32K에서는 10개의 모델이 강력한 짧은 길이 기준의 50% 이하로 떨어집니다. 최고 성능을 보이는 예외 중 하나인 GPT-4o조차도 거의 완벽한 99.3%의 기준에서 69.7%로 감소합니다. 우리의 분석은 이러한 하락이 주로 주의 메커니즘이 긴 문맥에서 명백한 일치가 없을 때 직면하는 어려움에서 비롯되어 관련 정보를 검색하기가 더 어려워지기 때문이라고 제안합니다.
합성개구리레이다(SAR) 원격 감지 이미지 해석 분야에서는 비전 언어 모델(VLMs)이 자연어 처리와 이미지 이해 분야에서 현저한 진전을 이루었지만, 전문 분야에 대한 도메인 전문 지식 부족으로 인해 그 응용은 제한되어 있다. 본 논문은 SAR 이미지를 위한 최초의 대규모 다중 모달 대화 데이터셋인 SARChat-2M을 제안하며, 약 2백만 개의 고품질 이미지-텍스트 쌍을 포함하며 다양한 시나리오와 상세한 대상 주석을 포함하고 있다. 이 데이터셋은 시각적 이해 및 물체 감지 작업과 같은 여러 주요 작업을 지원할 뿐만 아니라 독특한 혁신적 측면을 갖추고 있으며, SAR 도메인을 위한 시각-언어 데이터셋과 벤치마크를 개발하여 VLMs의 SAR 이미지 해석 능력을 가능하게 하고 평가함으로써 다양한 원격 감지 수직 도메인에 걸쳐 다중 모달 데이터셋을 구축하는 패러다임적 프레임워크를 제공한다. 16가지 주류 VLMs에 대한 실험을 통해 데이터셋의 효과가 완전히 검증되었으며, SAR 분야에서 최초의 다중 작업 대화 벤치마크가 성공적으로 수립되었다. 해당 프로젝트는 SAR 시각 언어 모델의 심층적 발전과 광범위한 응용을 촉진하기 위해 https://github.com/JimmyMa99/SARChat에서 공개될 예정이다.
다음 토큰 예측(NTP)은 자기회귀(AR) 비디오 생성을 위한 사실상의 방법이지만, 최적화되지 않은 단방향 의존성과 느린 추론 속도로 인해 문제가 있습니다. 본 연구에서는 비디오 생성을 위한 반자기회귀(semi-AR) 프레임워크인 다음 블록 예측(NBP)을 제안합니다. 비디오 콘텐츠를 동일한 크기의 블록(예: 행 또는 프레임)으로 균일하게 분해하여, 현재 블록의 각 토큰이 동시에 다음 블록의 해당 토큰을 예측할 수 있도록 하여, 개별 토큰에서 블록으로 생성 단위를 전환합니다. 전통적인 AR 모델링과 달리, 우리의 프레임워크는 각 블록 내에서 양방향 주의를 사용하여 토큰이 더 견고한 공간 의존성을 포착할 수 있도록 합니다. 병렬로 여러 토큰을 예측함으로써, NBP 모델은 생성 단계의 수를 크게 줄여 더 빠르고 효율적인 추론을 이끌어냅니다. 우리의 모델은 UCF101에서 103.3, K600에서 25.5의 FVD 점수를 달성하여, 평균 4.4의 우수성을 보이는 기본 NTP 모델을 능가합니다. 또한, 추론 단계 수가 줄어든 덕분에, NBP 모델은 초당 8.89프레임(128x128 해상도)을 생성하여 11배의 가속을 달성합니다. 또한, 700M에서 3B까지의 모델 규모를 탐색하여, UCF101에서 103.3에서 55.3, K600에서 25.5에서 19.5로 FVD 점수가 크게 개선되는 것을 관찰하여, 접근 방식의 확장성을 입증하였습니다.
검색 보강 생성 (RAG)은 인공지능 생성 콘텐츠 (AIGC)의 도전에 대응하기 위해 고안된 고급 기술입니다. 문맥 검색을 콘텐츠 생성에 통합함으로써 RAG는 신뢰할 수 있고 최신의 외부 지식을 제공하며 환각을 줄이고 다양한 작업에서 관련 문맥을 보장합니다. 그러나 RAG의 성공과 잠재력에도 불구하고 최근 연구에 따르면 RAG 패러다임은 새로운 위험 요소를 도입하는 것으로 나타났습니다. 이에는 견고성 문제, 개인정보 보호 문제, 적대적 공격, 그리고 책임 문제 등이 포함됩니다. 이러한 위험을 해결하는 것은 RAG 시스템의 미래 응용에 있어서 중요한데, 이는 그들의 신뢰성에 직접적인 영향을 미치기 때문입니다. RAG 방법의 신뢰성을 향상시키기 위해 다양한 방법이 개발되었지만, 이 주제에 대한 통합된 시각과 프레임워크가 부족합니다. 따라서 본 논문에서는 신뢰할 수 있는 RAG 시스템을 개발하기 위한 포괄적인 로드맵을 제시하여 이 간극을 해소하고자 합니다. 우리는 신뢰성, 개인정보 보호, 안전성, 공정성, 설명 가능성, 그리고 책임성이라는 다섯 가지 핵심 시각을 중심으로 논의를 전개합니다. 각 시각에 대해 우리는 일반적인 프레임워크와 분류법을 제시하여 현재의 도전에 대한 이해, 기존 솔루션의 평가, 그리고 유망한 미래 연구 방향을 식별하는 구조화된 접근을 제공합니다. 보다 넓은 채택과 혁신을 촉진하기 위해, 우리는 또한 신뢰할 수 있는 RAG 시스템이 중요한 영향을 미치는 하류 응용 분야를 강조합니다.
본 연구에서는 향상된 교차-주의 메커니즘을 활용하여 대규모 사전 훈련 모델로부터 지식을 전달하는 LLM 모듈의 구조를 제안합니다. 제안된 방법에서는 Qwen2-1.5B 모델이 고정되고 그 표현이 특별히 설계된 주의층을 통해 한정된 계산 자원으로 훈련된 GPT-Neo-125M 모델로 전달됩니다. Bespoke-Stratos-17k 데이터셋에 대한 실험 결과는 15회의 에폭 후 결합된 모델이 증류에 의해 얻은 것과 유사한 품질의 응답을 생성함을 보여줍니다. 우리는 모듈식 접근법의 장점을 논의하고 입력 쿼리와 비교 분석의 예를 제시하며, 해당 방법의 추가적인 확장 가능성에 대해 개요를 제시합니다.
모델 병합은 서로 다른 작업에서 세밀 조정된 대형 언어 모델(Large Language Models, LLMs)을 강력한 모델로 통합합니다. 그러나 모델 간의 매개변수 충돌은 평균화에서 성능 저하로 이어집니다. 모델 라우팅은 추론 중에 개별 모델을 선택하여 이 문제를 해결하지만, 과도한 저장 및 계산 비용을 요구하며 서로 다른 모델의 공통 지식을 활용하지 못합니다. 본 연구에서는 다른 레이어가 다양한 수준의 매개변수 충돌을 나타내는 것을 관찰했습니다. 이 통찰력을 기반으로, 우리는 최소한의 매개변수 충돌을 가진 레이어를 평균화하고 중요한 충돌이 있는 레이어에 대해 새로운 작업 수준 전문가 라우팅을 사용합니다. 저장 비용을 더욱 줄이기 위해, 작업 산술 희소성에서 영감을 받아 여러 번 세밀하게 조정된 전문가들을 밀집 전문가와 여러 희소 전문가로 분리합니다. 분포 밖 샘플을 고려하여, 입력 데이터의 작업 불확실성에 기초하여 적절한 전문가를 선택하고 병합합니다. 우리는 다양한 매개변수 규모를 갖는 LLaMA와 Qwen에서 광범위한 실험을 수행하고 실제 추론 작업에서 평가합니다. 결과는 우리의 방법이 기존 방법과 비교하여 시스템 비용이 적게 들면서도 일관되게 중요한 성능 향상을 달성한다는 것을 입증합니다.
우리는 모델 가중치를 수정하지 않고 추론 시 언어 모델(LM) 안전 추론을 최적화하는 새로운 동적 안전 프레임워크를 제안합니다. 최근 자가 비평 방법의 발전을 기반으로 한 접근 방식을 채택하여, 우리의 방법은 메타 비평 메커니즘을 활용하여 안전 프롬프트(명세서로 명명됨)를 반복적으로 업데이트하여 비판 및 수정 프로세스를 적응적으로 이끌어냅니다. 이 테스트 시간 최적화는 적대적 탈옥 요청에 대한 성능을 향상시킬 뿐만 아니라 도덕적 피해 회피 또는 정직한 응답 추구와 같은 다양한 일반 안전 관련 작업에서도 성과를 향상시킵니다. 여러 언어 모델에 걸쳐 우리의 경험적 평가는 동적으로 최적화된 안전 프롬프트가 고정된 시스템 프롬프트 및 정적 자가 비평 방어에 비해 상당히 더 높은 안전 점수를 제공함을 보여줍니다. 코드는 https://github.com/vicgalle/meta-self-critique.git 에서 공개될 예정입니다.
밀집 대조 표현 학습(DCRL)은 이미지 밀집 예측 작업의 학습 효율을 크게 향상시켰으며 의료 이미지 수집 및 밀집 주석의 큰 비용을 줄일 수 있는 큰 잠재력을 보여주었습니다. 그러나 의료 이미지의 특성으로 인해 신뢰할 수 없는 대응 발견이 발생하여 DCRL에서 대규모 거짓 양성 및 음성(FP&N) 쌍의 열린 문제를 야기합니다. 본 논문에서는 DCRL 이전에 동형사상 선험을 포함시키고 효과적인 밀집 대조를 위한 신뢰할 수 있는 대응 발견을 가능하게 하는 GEoMetric vIsual deNse sImilarity(GEMINI) 학습을 제안합니다. 의료 이미지의 동형사상을 모델링하고 위상 보존을 통해 픽셀의 대응을 예측하기 위한 변형 가능한 매핑을 추정하는 학습 가능한 변형 동형사상(DHL)을 제안합니다. 이는 페어링의 검색 공간을 효과적으로 줄이고 그래디언트를 통해 음성 쌍의 암묵적이고 부드러운 학습을 촉진합니다. 또한 대응 학습을 위해 특징에서 의미 정보를 추출하여 정렬 정도를 측정하는 기하 의미 유사성(GSS)을 제안합니다. 이는 변형의 학습 효율과 성능을 증진시키며 신뢰할 수 있는 양성 쌍을 구성합니다. 우리는 실험에서 두 가지 전형적인 표현 학습 작업에 대한 두 가지 실용적인 변형을 구현했습니다. 기존 방법을 능가하는 우수한 결과를 보여주는 7개 데이터셋에서 우리의 유망한 결과는 우리의 큰 우월성을 보여줍니다. 우리는 동반 링크인 https://github.com/YutingHe-list/GEMINI에서 코드를 공개할 예정입니다.