번역이 포함된 일일 선별된 AI 연구 논문
우리는 20억 파라미터 규모의 최초의 오픈소스 네이티브 1비트 대형 언어 모델(LLM)인 BitNet b1.58 2B4T를 소개합니다. 이 모델은 4조 토큰의 코퍼스로 학습되었으며, 언어 이해, 수학적 추론, 코딩 능력, 대화 능력을 포괄하는 벤치마크에서 엄격하게 평가되었습니다. 우리의 결과는 BitNet b1.58 2B4T가 유사한 규모의 선도적인 오픈 가중치, 완전 정밀도 LLM과 동등한 성능을 달성하면서도 메모리 사용량, 에너지 소비, 디코딩 지연 시간을 크게 줄이는 등 계산 효율성에서 상당한 이점을 제공함을 보여줍니다. 추가 연구와 도입을 촉진하기 위해, 모델 가중치는 Hugging Face를 통해 공개되었으며, GPU 및 CPU 아키텍처를 위한 오픈소스 추론 구현도 함께 제공됩니다.
추론 모델(예: DeepSeek R1)은 강화 학습(RL)을 통해 훈련되어 텍스트 기반 추론에서는 뛰어난 성능을 보이지만, 기하학적 추론, 간결한 계산, 복잡한 방정식 풀이와 같은 구조화된 문제 해결이 필요한 시나리오에서는 어려움을 겪습니다. 이러한 영역에서는 코드 인터프리터(CI)와 같은 계산 도구가 뚜렷한 이점을 보입니다. 이러한 격차를 해소하기 위해, 우리는 도구 통합 학습을 통해 장문 추론을 강화하는 ReTool을 제안합니다. ReTool은 두 가지 주요 기능을 포함합니다: (1) 자연어 추론 과정 내에서 실시간 코드 실행을 동적으로 인터리빙하는 것, (2) 다중 턴 실시간 코드 실행을 통해 정책 롤아웃을 허용하고 결과 피드백을 기반으로 모델이 도구를 언제, 어떻게 호출할지 학습하도록 하는 자동화된 RL 패러다임입니다. ReTool은 체계적인 훈련 프레임워크를 사용하며, 기본 모델을 미세 조정하기 위해 코드가 강화된 장문 추론 트레이스를 생성하는 합성 콜드 스타트 데이터 생성으로 시작합니다. 이후의 RL 훈련은 작업 결과를 보상으로 활용하여 모델의 도구 사용 전략을 반복적으로 개선함으로써, 인간의 사전 지식 없이도 최적의 도구 호출 패턴을 자율적으로 발견할 수 있도록 합니다. 도전적인 MATH Olympiad 벤치마크인 AIME에서의 실험은 ReTool의 우수성을 입증합니다: 우리의 32B 모델은 400번의 훈련 단계로 67%의 정확도를 달성하여, 텍스트 기반 RL 베이스라인(40% 정확도, 1080 단계)보다 효율성과 성능에서 우수했습니다. 특히, ReTool-32B는 확장 설정에서 72.5%의 정확도를 달성하며 OpenAI의 o1-preview를 27.9% 앞섰습니다. 추가 분석은 코드 자가 수정과 같은 새로운 행동을 보여주며, 모델이 적응적 도구 사용을 자율적으로 마스터하는 "아하 순간"을 나타냅니다. 이러한 발견은 결과 기반 도구 통합이 복잡한 수학적 추론을 발전시키는 데 있어 유망함을 강조하며, 하이브리드 신경-기호 시스템에 대한 새로운 통찰을 제공합니다.
색상은 인간의 인지에 중요한 역할을 하며 일반적으로 시각적 추론에서 결정적인 단서를 제공합니다. 그러나 시각-언어 모델(VLMs)이 인간과 같이 색상을 인지하고 이해하며 활용할 수 있는지, 그리고 그 방법은 명확하지 않습니다. 본 논문은 색상 이해 능력, 즉 색상 인지, 추론 및 견고성을 평가하기 위해 세심하게 설계된 혁신적인 벤치마크인 ColorBench를 소개합니다. 실제 응용에 기반을 둔 다양한 테스트 시나리오를 구성함으로써, ColorBench는 이러한 모델들이 색상을 어떻게 인지하고, 색상 기반 단서로부터 의미를 추론하며, 다양한 색상 변환 하에서 일관된 성능을 유지하는지를 평가합니다. 다양한 언어 모델과 시각 인코더를 가진 32개의 VLM을 광범위하게 평가한 결과, 본 논문은 몇 가지 새로운 발견을 밝혀냈습니다: (i) 스케일링 법칙(더 큰 모델이 더 좋음)이 ColorBench에서도 여전히 유효하지만, 언어 모델이 시각 인코더보다 더 중요한 역할을 합니다. (ii) 그러나 모델 간 성능 차이는 상대적으로 작아, 색상 이해가 기존 VLM에서 크게 간과되었음을 나타냅니다. (iii) CoT(Chain-of-Thought) 추론은 시각 중심 작업임에도 불구하고 색상 이해 정확도와 견고성을 향상시킵니다. (iv) ColorBench에서 VLM이 실제로 색상 단서를 활용하지만, 일부 작업에서는 모델을 오도할 수도 있습니다. 이러한 발견들은 현재 VLM의 중요한 한계를 강조하며, 색상 이해 능력을 향상시킬 필요성을 부각시킵니다. 우리의 ColorBench는 다중모드 AI의 인간 수준 색상 이해 연구를 발전시키기 위한 기초 도구로 활용될 수 있습니다.
만화 제작 산업은 높은 정확도, 효율성, 문맥적 일관성, 그리고 유연한 제어가 가능한 참조 기반의 라인 아트 채색을 필요로 합니다. 만화 페이지는 다양한 캐릭터, 객체, 배경을 포함하고 있어 채색 과정을 복잡하게 만듭니다. 이미지 생성 분야에서 디퓨전 모델의 발전이 있었음에도 불구하고, 라인 아트 채색에의 적용은 여전히 제한적이며, 방대한 참조 이미지 처리, 시간 소모적인 추론, 유연한 제어와 관련된 문제에 직면해 있습니다. 우리는 라인 아트 채색의 품질에 대한 방대한 문맥적 이미지 지도의 필요성을 조사합니다. 이러한 문제를 해결하기 위해, 우리는 Cobra를 소개합니다. Cobra는 색상 힌트를 지원하고 200개 이상의 참조 이미지를 활용하면서도 낮은 지연 시간을 유지하는 효율적이고 다용도적인 방법입니다. Cobra의 핵심은 Causal Sparse DiT 아키텍처로, 특별히 설계된 위치 인코딩, 인과적 희소 주의(Causal Sparse Attention), 그리고 Key-Value Cache를 활용하여 장문맥 참조를 효과적으로 관리하고 색상 정체성 일관성을 보장합니다. 결과적으로 Cobra는 방대한 문맥적 참조를 통해 정확한 라인 아트 채색을 달성하며, 추론 속도와 상호작용성을 크게 향상시켜 중요한 산업적 요구를 충족시킵니다. 우리는 프로젝트 페이지(https://zhuang2002.github.io/Cobra/)에 코드와 모델을 공개합니다.
본 연구는 대형 시각-언어 모델(LVLMs) 훈련을 위해 널리 사용되는 지도 미세 조정(SFT) 후 강화 학습(RL) 패러다임을 재검토하며, 중요한 발견을 제시합니다: SFT는 전문 모델로부터 모방된 "가짜 추론 경로"를 유도함으로써 후속 RL을 크게 저해할 수 있습니다. 이러한 경로는 RL 모델의 고유한 추론 경로와 유사해 보일 수 있지만, 종종 지나치게 길고 망설이며 정보가 부족한 단계와 잘못된 추론을 포함합니다. 이러한 효과를 체계적으로 연구하기 위해, 우리는 LVLMs의 추론을 지원하기 위해 설계된 새로운 멀티모달 데이터셋인 VLAA-Thinking을 소개합니다. 캡셔닝, 추론 증류, 답변 재작성 및 검증의 6단계 파이프라인을 통해 구성된 VLAA-Thinking은 SFT를 위한 고품질의 단계별 시각 추론 흔적과 동일한 데이터 소스에서 더 도전적인 RL 분할을 포함합니다. 이 데이터셋을 사용하여 SFT, RL 및 이들의 조합을 비교하는 광범위한 실험을 수행합니다. 결과는 SFT가 모델이 추론 형식을 학습하는 데 도움을 주지만, 종종 정렬된 모델을 모방적이고 경직된 추론 모드에 고정시켜 추가 학습을 방해한다는 것을 보여줍니다. 반면, 그룹 상대 정책 최적화(GRPO)를 기반으로 지각과 인지 신호를 통합한 새로운 혼합 보상 모듈을 사용한 우리의 RL 접근법은 더 진정적이고 적응적인 추론 행동을 촉진합니다. 특히, Qwen2.5VL 3B를 기반으로 한 우리의 모델 VLAA-Thinker는 4B 규모 LVLMs 중 Open LMM Reasoning Leaderboard(https://huggingface.co/spaces/opencompass/Open_LMM_Reasoning_Leaderboard)에서 최고 성능을 달성하며, 이전 최첨단 모델을 1.8% 능가합니다. 우리의 연구 결과가 추론 능력을 갖춘 LVLMs 개발에 유용한 통찰을 제공하고, 이 분야의 미래 연구에 기여하기를 바랍니다.
AlayaDB는 AlayaDB AI에서 대규모 언어 모델(LLM)을 위한 효율적이고 효과적인 장문맥 추론을 위해 네이티브하게 설계된 최첨단 벡터 데이터베이스 시스템입니다. 특히, AlayaDB는 LLM 추론 시스템에서 키-값(KV) 캐시와 어텐션 계산을 분리하여 이를 새로운 벡터 데이터베이스 시스템으로 캡슐화합니다. 모델 서비스 제공자(MaaS)의 경우, AlayaDB는 기존의 대안 솔루션(예: KV 캐시 분리, 검색 기반 희소 어텐션)과 비교하여 더 적은 하드웨어 리소스를 소모하면서 다양한 서비스 수준 목표(SLO)를 가진 다양한 워크로드에 대해 더 높은 생성 품질을 제공합니다. AlayaDB의 핵심은 LLM 추론을 위한 어텐션 계산과 캐시 관리를 쿼리 처리 프로세스로 추상화하고, 네이티브 쿼리 최적화기를 통해 성능을 최적화한다는 점입니다. 본 연구에서는 (i) 산업 파트너로부터의 세 가지 사용 사례와 (ii) LLM 추론 벤치마크에 대한 광범위한 실험 결과를 통해 AlayaDB의 효과를 입증합니다.
본 논문에서 우리는 근본적인 질문에 대해 다룹니다: "잠재 확산 모델(Latent Diffusion Model)을 변분 오토인코더(VAE) 토크나이저와 함께 종단 간(end-to-end) 방식으로 학습시킬 수 있을까?" 전통적인 딥러닝 지혜에 따르면, 가능한 경우 종단 간 학습이 종종 선호됩니다. 그러나 잠재 확산 트랜스포머(Latent Diffusion Transformer)의 경우, 표준 확산 손실을 사용하여 VAE와 확산 모델을 동시에 종단 간 학습시키는 것은 비효율적이며, 최종 성능 저하를 초래하는 것으로 관찰되었습니다. 우리는 확산 손실이 비효율적이지만, 표현 정렬(REPA) 손실을 통해 종단 간 학습이 가능해짐을 보여줍니다. 이를 통해 학습 과정에서 VAE와 확산 모델을 함께 조정할 수 있습니다. 제안된 학습 방법(REPA-E)은 단순함에도 불구하고 놀라운 성능을 보입니다. REPA와 기본 학습 방법에 비해 각각 17배와 45배 이상 빠른 확산 모델 학습 속도를 달성합니다. 흥미롭게도, REPA-E를 통한 종단 간 조정은 VAE 자체도 개선시키는 것으로 관찰되었습니다. 이는 잠재 공간 구조와 하류 생성 성능의 향상으로 이어집니다. 최종 성능 측면에서, 우리의 접근 방식은 새로운 최첨단 기술을 제시합니다. ImageNet 256 x 256에서 분류자 없는 지도(classifier-free guidance)를 사용한 경우와 사용하지 않은 경우 각각 1.26과 1.83의 FID(Fréchet Inception Distance)를 달성했습니다. 코드는 https://end2end-diffusion.github.io에서 확인할 수 있습니다.
과학적 발견에 대한 대형 언어 모델(LLM) 에이전트의 기존 평가는 제안된 방법의 타당성을 평가하기 위한 객관적인 기준과 지표가 부족한 상황이다. 이러한 문제를 해결하기 위해, 우리는 언어 에이전트가 도전적인 머신러닝(ML) 연구 경연 대회를 얼마나 효과적으로 해결할 수 있는지를 정량화하기 위해 설계된 벤치마크인 MLRC-Bench를 소개한다. 우리의 벤치마크는 충분한 엔지니어링 노력으로 대부분 해결 가능한 잘 정립된 연구 과제에 초점을 맞춘 OpenAI의 MLE-Bench(Chan et al., 2024) 및 METR의 RE-Bench(Wijk et al., 2024)와 같은 최근 벤치마크와 달리, 새로운 방법론을 요구하는 열린 연구 문제를 강조한다. LLM-as-a-judge를 사용하여 종단 간 에이전트 파이프라인을 평가하는 AI Scientist(Lu et al., 2024b)와 같은 기존 연구와 달리, MLRC-Bench는 새로운 연구 방법을 제안하고 구현하는 핵심 단계를 측정하며, 새로 제안된 엄격한 프로토콜과 객관적인 지표로 이를 평가한다. 우리가 선별한 7개의 경연 과제는 LLM 에이전트에게 상당한 도전을 드러낸다. 테스트된 에이전트 중 최고 성능을 보인 에이전트(MLAB(Huang et al., 2024a) 하의 gemini-exp-1206)조차도 기준선과 최고 인간 참가자 점수 간의 격차를 9.3%만 좁힌다. 더욱이, 우리의 분석은 LLM이 판단한 혁신성과 최첨단 ML 연구 문제에서의 실제 성과 간의 불일치를 보여준다. MLRC-Bench는 새로운 ML 경연 대회와 함께 지속적으로 성장하도록 설계된 동적 벤치마크로, AI의 연구 능력에 대한 엄격하고 객관적인 평가를 장려한다.
우리는 음성-텍스트 대규모 언어 모델(LLM)의 지시 미세 조정 및 사전 학습을 위해 설계된 5천만 개의 예시로 구성된 SIFT(Speech Instruction Fine-Tuning) 데이터셋을 소개합니다. SIFT-50M은 공개적으로 이용 가능한 음성 코퍼스로부터 구축되었으며, 이는 총 14,000시간의 음성을 포함하고 있습니다. 또한, 이 데이터셋은 LLM과 기존의 전문가 모델을 활용하여 만들어졌습니다. SIFT-50M은 다섯 가지 언어를 아우르며, 다양한 음성 이해와 제어 가능한 음성 생성 지시를 포함하고 있습니다. SIFT-50M을 사용하여 우리는 SIFT-LLM을 학습시켰으며, 이 모델은 지시 수행 벤치마크에서 기존의 음성-텍스트 LLM을 능가하는 동시에 기본적인 음성 작업에서도 경쟁력 있는 성능을 달성했습니다. 더 나아가 연구를 지원하기 위해, 우리는 음성-텍스트 LLM의 지시 수행 능력을 평가하기 위해 특별히 설계된 벤치마크 데이터셋인 EvalSIFT도 소개합니다.
기계 생성 콘텐츠를 위한 이상적인 탐지 시스템은 더욱 진보된 대형 언어 모델(LLM)들이 날로 등장함에 따라 어떤 생성기에서도 잘 작동해야 합니다. 기존 시스템들은 짧은 텍스트에서 AI 생성 콘텐츠를 정확히 식별하는 데 어려움을 겪는 경우가 많습니다. 또한, 모든 텍스트가 완전히 인간이나 LLM에 의해 작성된 것은 아니므로, 우리는 인간과 LLM이 공동으로 작성한 텍스트와 같은 부분적인 경우에 더 초점을 맞췄습니다. 본 논문에서는 토큰 분류 작업을 위해 설계된 일련의 모델들을 소개하며, 이 모델들은 인간과 기계가 공동으로 작성한 방대한 텍스트 컬렉션으로 훈련되었고, 보지 못한 도메인의 텍스트, 보지 못한 생성기의 텍스트, 비원어민이 작성한 텍스트, 그리고 적대적 입력이 포함된 텍스트에서도 우수한 성능을 보였습니다. 또한, 우리는 23개 언어에 걸쳐 여러 인기 있는 독점 LLM들이 주로 공동으로 작성한 240만 개 이상의 텍스트로 구성된 새로운 데이터셋을 소개합니다. 우리는 또한 각 도메인과 생성기의 텍스트에 대한 모델 성능 결과를 제시합니다. 추가적인 결과로는 각 적대적 방법에 대한 성능 비교, 입력 텍스트의 길이, 그리고 원본 인간 작성 텍스트와 비교한 생성 텍스트의 특성 등이 포함됩니다.
우리는 라이다 기반의 야외 환경에서의 형태 완성(shape-completion)을 위한 CAL(Complete Anything in Lidar)을 제안한다. 이는 라이다 기반의 의미론적/범위적 장면 완성(semantic/panoptic scene completion)과 밀접한 관련이 있다. 그러나 기존의 방법들은 기존 라이다 데이터셋에 레이블링된 폐쇄된 어휘 목록 내의 객체만을 완성하고 인식할 수 있다. 이와 달리, 우리의 제로샷(zero-shot) 접근 방식은 다중 모달 센서 시퀀스로부터 시간적 맥락을 활용하여 관찰된 객체의 형태와 의미론적 특징을 추출한다. 이러한 특징들은 이후 라이다만을 사용하는 인스턴스 수준의 완성 및 인식 모델로 정제된다. 비록 우리가 부분적인 형태 완성만을 추출하지만, 정제된 모델은 데이터셋 전반에 걸쳐 여러 부분 관찰로부터 전체 객체 형태를 추론하는 방법을 학습한다. 우리는 이 모델이 의미론적 및 범위적 장면 완성을 위한 표준 벤치마크에서 프롬프트될 수 있으며, 객체를 (비모달) 3D 경계 상자로 위치 지정하고 고정된 클래스 어휘를 넘어 객체를 인식할 수 있음을 보여준다. 우리의 프로젝트 페이지는 https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar 에서 확인할 수 있다.
단일 카메라로 캡처된 비디오에서 4D 동적 장면을 재구성하는 것은 매우 유용하지만, 각 타임스탬프가 단일 시점에서만 관찰되기 때문에 매우 어려운 과제입니다. 우리는 단일 카메라 입력에서 다중 시점 비디오를 합성함으로써 4D 단일 카메라 비디오 합성을 향상시키는 새로운 접근법인 Vivid4D를 소개합니다. 기존 방법들이 기하학적 사전 정보만을 활용하거나 기하학을 간과한 채 생성적 사전 정보를 사용하는 것과 달리, 우리는 두 가지를 통합합니다. 이를 통해 시점 증강을 비디오 인페인팅 작업으로 재구성하며, 단일 카메라 깊이 사전 정보를 기반으로 관찰된 시점을 새로운 시점으로 변형합니다. 이를 위해, 우리는 웹 비디오에 합성적으로 생성된 마스크를 적용하여 변형으로 인한 폐색을 모방하고, 누락된 영역의 공간적 및 시간적 일관성을 보장하는 비디오 인페인팅 모델을 학습합니다. 또한, 단일 카메라 깊이 사전 정보의 부정확성을 더욱 완화하기 위해 반복적 시점 증강 전략과 강건한 재구성 손실을 도입합니다. 실험 결과, 우리의 방법이 단일 카메라 4D 장면 재구성 및 완성을 효과적으로 개선함을 보여줍니다.
Chain-of-Thought (CoT) 프롬프팅은 문제를 순차적 단계로 분해하여 인간의 논리를 모방하고 오류를 줄이는 방식으로 대규모 언어 모델(LLM)의 추론 능력을 향상시킵니다. 그러나 방대한 해결 공간과 모호한 제약 조건을 가진 복잡한 작업은 단일 추론 체인의 능력을 초과하는 경우가 많습니다. 교환 대수학과 대수 기하학에서의 Minimal Free Resolution (MFR)에서 영감을 받아, 우리는 Syzygy of Thoughts (SoT)라는 새로운 프레임워크를 제안합니다. SoT는 보조적이고 상호 연관된 추론 경로를 도입하여 CoT를 확장합니다. SoT는 더 깊은 논리적 의존성을 포착하여 더 견고하고 구조화된 문제 해결을 가능하게 합니다. MFR은 모듈을 최소 랭크를 가진 자유 모듈의 시퀀스로 분해함으로써 복잡한 시스템에 대한 구조화된 분석적 접근을 제공합니다. 이 방법은 "모듈", "Betti 수", "자유성", "매핑", "정확성", "최소성"과 같은 개념을 도입하여 원래의 복잡한 문제를 논리적으로 완전한 최소 하위 문제로 체계적으로 분해하면서도 핵심 문제 특성을 보존하고 추론 길이를 줄입니다. 우리는 SoT를 다양한 데이터셋(예: GSM8K, MATH)과 모델(예: GPT-4o-mini, Qwen2.5)에서 테스트하여 주요 CoT 표준을 맞추거나 능가하는 추론 정확도를 달성했습니다. 또한, 샘플링 프로세스를 대수적 제약 조건과 정렬함으로써 우리의 접근 방식은 LLM의 추론 시간 확장성을 향상시키며, 투명한 추론과 높은 성능을 보장합니다. 우리의 코드는 https://github.com/dlMARiA/Syzygy-of-thoughts에서 공개될 예정입니다.
최근 3D 가우시안 스플래팅(3DGS)의 발전은 새로운 시점 합성 작업에서 놀라운 잠재력을 보여주었습니다. 분할 정복(divide-and-conquer) 패러다임은 대규모 장면 재구성을 가능하게 했지만, 장면 분할, 최적화 및 병합 과정에서 여전히 상당한 과제가 남아 있습니다. 본 논문은 BlockGaussian이라는 새로운 프레임워크를 소개하며, 이는 콘텐츠 인식 장면 분할 전략과 가시성 인식 블록 최적화를 통해 효율적이고 고품질의 대규모 장면 재구성을 달성합니다. 구체적으로, 우리의 접근 방식은 다양한 영역 간의 콘텐츠 복잡성 변화를 고려하고 장면 분할 과정에서 계산 부하를 균형 있게 분배하여 효율적인 장면 재구성을 가능하게 합니다. 독립적인 블록 최적화 과정에서 발생하는 감독 불일치 문제를 해결하기 위해, 우리는 개별 블록 최적화 과정에서 보조 점(auxiliary points)을 도입하여 실제 감독을 정렬함으로써 재구성 품질을 향상시켰습니다. 또한, 블록 병합 과정에서 공중 부유체(airspace floaters)로 인한 렌더링 저하를 효과적으로 완화하기 위해 가상 시점 기하학적 제약(pseudo-view geometry constraint)을 제안합니다. 대규모 장면에 대한 광범위한 실험을 통해 우리의 접근 방식이 재구성 효율성과 렌더링 품질 모두에서 최첨단 성능을 달성함을 보여주었으며, 최적화 속도가 5배 빨라지고 여러 벤치마크에서 평균 PSNR이 1.21 dB 향상되었습니다. 특히, BlockGaussian은 계산 요구 사항을 크게 줄여 단일 24GB VRAM 장치에서도 대규모 장면 재구성을 가능하게 합니다. 프로젝트 페이지는 https://github.com/SunshineWYC/BlockGaussian에서 확인할 수 있습니다.
커뮤니티에서 제기된 질문과 답변을 기반으로 정보 검색(IR) 평가 벤치마크를 자동으로 구축하기 위한 재사용 가능한 프레임워크인 FreshStack을 소개합니다. FreshStack은 다음과 같은 단계를 수행합니다: (1) 코드와 기술 문서로부터 자동으로 코퍼스를 수집하고, (2) 커뮤니티 질문과 답변에서 핵심 정보(nugget)를 생성하며, (3) 다양한 검색 기법과 하이브리드 아키텍처를 융합하여 문서를 검색하는 nugget 수준의 지원을 제공합니다. 우리는 FreshStack을 사용하여 빠르게 성장하고 최신이며 틈새 주제에 대한 다섯 개의 데이터셋을 구축하여 작업이 충분히 도전적이도록 했습니다. FreshStack에서 기존 검색 모델들은 그대로 적용했을 때, 다섯 가지 주제 모두에서 오라클 접근법에 비해 크게 뒤처지는 성능을 보여 IR 품질을 개선할 여지가 많음을 나타냅니다. 또한, 리랭커가 첫 단계 검색 정확도를 명확히 개선하지 못하는 경우(다섯 가지 주제 중 두 가지)를 확인했습니다. 우리는 FreshStack이 현실적이고 확장 가능하며 오염되지 않은 IR 및 RAG 평가 벤치마크 구축을 위한 향후 연구를 촉진하기를 바랍니다. FreshStack 데이터셋은 https://fresh-stack.github.io에서 확인할 수 있습니다.
최근 인공지능(AI) 음성 생성 및 음성 복제 기술의 발전으로 자연스러운 음성과 정확한 음성 복제가 가능해졌지만, 다양한 억양과 언어적 특성에 걸친 사회기술적 시스템에 미치는 영향은 완전히 이해되지 않고 있습니다. 본 연구는 두 가지 합성 AI 음성 서비스(Speechify와 ElevenLabs)를 혼합 방법론을 통해 평가하며, 설문 조사와 인터뷰를 활용하여 기술적 성능을 평가하고 사용자의 생활 경험이 이러한 음성 기술에서의 억양 변이에 대한 인식에 어떻게 영향을 미치는지 밝혀냅니다. 연구 결과는 다섯 가지 지역별 영어 억양 간의 기술적 성능 차이를 보여주며, 현재의 음성 생성 기술이 의도치 않게 언어적 특권과 억양 기반 차별을 강화하여 새로운 형태의 디지털 배제를 초래할 가능성을 시사합니다. 전반적으로, 본 연구는 개발자, 정책 입안자 및 조직이 공정하고 사회적으로 책임 있는 AI 음성 기술을 보장하기 위한 실행 가능한 통찰력을 제공함으로써 포용적 설계와 규제의 필요성을 강조합니다.