번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 지속적인 확장은 수익 체감을 초래하는가? 실제 세계에서의 가치는 종종 에이전트가 완료할 수 있는 작업의 길이에서 비롯된다. 우리는 이 연구를 단일 단계 정확도의 한계적 개선이 모델이 성공적으로 완료할 수 있는 작업의 길이에 기하급수적인 개선을 가져올 수 있다는 간단하지만 직관에 반하는 사실을 관찰함으로써 시작한다. 그런 다음, 간단한 작업이 길어질 때 LLM의 실패가 추론 능력의 부재가 아니라 실행 과정에서의 실수에서 비롯된다고 주장한다. 우리는 장기적 작업을 해결하기 위해 필요한 지식과 계획을 명시적으로 제공함으로써 실행 능력을 분리하는 것을 제안한다. 우리는 더 큰 모델이 작은 모델이 단일 단계에서 100%의 정확도를 가질 때에도 훨씬 더 많은 단계를 올바르게 실행할 수 있음을 발견한다. 모델의 단계별 정확도는 단계 수가 증가함에 따라 저하되는 것을 관찰한다. 이는 단순히 장기 문맥의 한계 때문만은 아니다. 흥미롭게도, 우리는 자기 조건화 효과를 관찰한다. 즉, 모델은 이전 단계에서의 실수가 문맥에 포함될 때 실수를 할 가능성이 더 높아진다. 자기 조건화는 단순히 모델 크기를 확장함으로써 감소하지 않는다. 반면, 최근의 사고 모델은 자기 조건화를 하지 않으며, 단일 단계에서 훨씬 더 긴 작업을 실행할 수 있다. 우리는 최첨단 사고 모델이 단일 단계에서 실행할 수 있는 작업의 길이를 벤치마킹함으로써 결론을 내린다. 전반적으로, 실행 능력에 초점을 맞춤으로써, 우리는 LLM이 복잡한 추론 문제를 해결할 수 있으면서도 간단한 작업이 길어질 때 실패하는 이유에 대한 논쟁을 조정하고, 장기적 작업을 위해 모델 크기와 순차적 테스트 시간 계산을 확장하는 것의 엄청난 이점을 강조하고자 한다.
임의 해상도 이미지 생성은 다양한 기기에서 일관된 시각적 경험을 제공하며, 제작자와 소비자 모두에게 광범위한 응용 가능성을 가지고 있습니다. 현재의 확산 모델은 해상도가 증가함에 따라 계산 요구량이 제곱으로 증가하여 4K 이미지 생성 시 100초 이상의 지연이 발생합니다. 이를 해결하기 위해, 우리는 잠재 확산 모델의 다음 세대를 탐구합니다. 여기서 확산 모델에 의해 생성된 고정된 잠재 상태를 콘텐츠 표현으로 간주하고, 컴팩트한 생성 잠재 상태를 사용하여 임의 해상도의 이미지를 한 단계 생성기로 디코딩하는 방법을 제안합니다. 이를 통해 우리는 InfGen을 제시합니다. InfGen은 VAE 디코더를 새로운 생성기로 대체하여, 확산 모델을 재학습하지 않고도 고정 크기의 잠재 상태에서 임의 해상도의 이미지를 생성할 수 있게 합니다. 이는 프로세스를 단순화하고 계산 복잡성을 줄이며, 동일한 잠재 공간을 사용하는 모든 모델에 적용할 수 있습니다. 실험 결과, InfGen은 많은 모델을 임의 고해상도 시대로 개선하면서 4K 이미지 생성 시간을 10초 미만으로 단축할 수 있음을 보여줍니다.
자율적인 AI 에이전트의 급속한 도입은 인간의 직접적인 감독을 넘어서는 규모와 속도로 에이전트들이 거래하고 조율하는 새로운 경제 계층을 탄생시키고 있다. 우리는 이러한 신생 시스템을 분석하기 위한 프레임워크로서 "샌드박스 경제"를 제안하며, 이를 두 가지 주요 차원에서 특징짓는다: 그 기원(자연 발생적 vs. 의도적)과 기존 인간 경제와의 분리 정도(투과적 vs. 비투과적). 현재의 추세는 방대하고 매우 투과적인 AI 에이전트 경제의 자발적 출현을 가리키며, 이는 전례 없는 수준의 조율 기회와 함께 시스템적 경제 위험 및 심화된 불평등과 같은 상당한 도전 과제를 제시한다. 여기서 우리는 안전하게 조정 가능한 AI 에이전트 시장으로 이어질 수 있는 여러 가능한 설계 선택들을 논의한다. 특히, 공정한 자원 할당과 선호 해결을 위한 경매 메커니즘, 집단 목표 달성을 위해 조율하는 AI "미션 경제" 설계, 그리고 신뢰, 안전, 책임성을 보장하기 위한 사회-기술적 인프라를 고려한다. 이를 통해 우리는 다가오는 기술적 전환이 인류의 장기적 집단 번영과 일치하도록 조정 가능한 에이전트 시장의 적극적 설계를 주장한다.
파트 수준에서 3D 형태를 생성하는 것은 메시 리토폴로지, UV 매핑, 3D 프린팅과 같은 다운스트림 애플리케이션에 있어 핵심적인 작업입니다. 그러나 기존의 파트 기반 생성 방법들은 종종 충분한 제어 가능성을 갖추지 못하고 의미론적으로 의미 있는 분해가 부족한 문제를 안고 있습니다. 이를 해결하기 위해, 우리는 X-Part를 소개합니다. X-Part는 전체적인 3D 객체를 의미론적으로 의미 있고 구조적으로 일관된 파트로 분해하며 높은 기하학적 충실도를 갖추도록 설계된 제어 가능한 생성 모델입니다. X-Part는 파트 생성을 위한 프롬프트로 바운딩 박스를 활용하고, 의미 있는 분해를 위해 포인트 단위의 의미론적 특징을 주입합니다. 더불어, 우리는 인터랙티브 파트 생성을 위한 편집 가능한 파이프라인을 설계했습니다. 광범위한 실험 결과는 X-Part가 파트 수준 형태 생성에서 최첨단 성능을 달성함을 보여줍니다. 이 작업은 프로덕션 준비가 된 편집 가능하고 구조적으로 견고한 3D 자산을 생성하기 위한 새로운 패러다임을 제시합니다. 코드는 공개 연구를 위해 공개될 예정입니다.
참여와 동기는 제2언어 습득에 있어 핵심적이지만, 교육적 대화에서 학습자의 흥미를 유지하는 것은 여전히 도전 과제로 남아 있습니다. 기존 연구는 교육적 텍스트가 흥미롭게 만드는 요소를 탐구했지만, 대화에서 참여를 이끄는 언어적 특징에 대해서는 아직 알려진 바가 거의 없습니다. 이러한 격차를 해결하기 위해, 우리는 교사-학생 상호작용에서 흥미로움과 예상 흥미로움을 주석 처리한 최초의 대규모 데이터셋인 IntrEx를 소개합니다. IntrEx는 교사-학생 채팅방 코퍼스(TSCC)를 기반으로 구축되었으며, 시퀀스 수준의 주석을 추가하여 단순한 턴을 넘어 확장된 대화에서 흥미가 어떻게 진화하는지를 포착할 수 있도록 기존 연구를 확장했습니다. 우리는 100명 이상의 제2언어 학습자를 대상으로 엄격한 주석 프로세스를 적용하고, 인간 피드백을 통한 강화 학습(RLHF)에서 영감을 받은 비교 기반 평가 접근법을 사용하여 일관성을 개선했습니다. 또한, 대형 언어 모델(LLM)이 인간의 흥미로움 판단을 예측할 수 있는지 조사했습니다. 그 결과, 흥미로움 평가에 미세 조정된 LLM(7B/8B 매개변수)이 GPT-4o와 같은 더 큰 상용 모델을 능가하는 것으로 나타났으며, 이는 교육 환경에서 참여를 모델링하기 위한 특화된 데이터셋의 잠재력을 보여줍니다. 마지막으로, 구체성, 이해 가능성(가독성), 수용과 같은 언어적 및 인지적 요인이 교육적 대화에서 참여에 미치는 영향을 분석했습니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG) 접근법은 정보 검색(Information Retrieval, IR) 기술과 대규모 언어 모델(Large Language Models, LLMs)을 통합하여 질문-응답 시스템과 대화 생성 작업의 성능을 향상시킵니다. 이 전략은 외부 지식 기반에서 정보를 검색하여 생성 모델의 응답 능력을 강화하는 방식으로, 일정한 성공을 거두었습니다. 그러나 현재의 RAG 방법들은 다중 홉(multi-hop) 질의를 처리할 때 여전히 많은 어려움에 직면하고 있습니다. 예를 들어, 일부 접근법은 반복적인 검색에 지나치게 의존함으로써 복합 질의에 너무 많은 검색 단계를 낭비합니다. 또한, 원본의 복잡한 질의를 그대로 검색에 사용할 경우 특정 하위 질의와 관련된 내용을 포착하지 못해 노이즈가 많은 검색 결과를 얻을 수 있습니다. 이러한 노이즈가 제대로 관리되지 않으면 노이즈 누적 문제로 이어질 수 있습니다. 이러한 문제를 해결하기 위해, 우리는 다양한 복잡도의 문제를 효율적으로 처리하기 위해 설계된 새로운 휴리스틱 기반 프레임워크인 HANRAG를 소개합니다. 강력한 리벨레이터(revelator)에 의해 구동되는 HANRAG는 질의를 라우팅하고, 이를 하위 질의로 분해하며, 검색된 문서에서 노이즈를 필터링합니다. 이를 통해 시스템의 적응성과 노이즈 저항성을 강화하여 다양한 질의를 효과적으로 처리할 수 있게 합니다. 우리는 제안된 프레임워크를 다양한 벤치마크에서 다른 선도적인 산업 방법들과 비교했습니다. 그 결과, 우리의 프레임워크가 단일 홉(single-hop) 및 다중 홉 질문-응답 작업 모두에서 우수한 성능을 보임을 확인했습니다.
비전-언어 모델(VLMs)의 정교함이 증가함에 따라, 이들의 추론 능력에 대한 관심도 높아지고 있다. 이러한 모델들은 다양한 작업에서 뛰어난 성능을 보이지만, 물리학과 같은 기본적인 과학 원리에 대한 이해는 아직 충분히 탐구되지 않은 분야로 남아 있다. 이러한 능력의 발전을 반영하기 위해, 우리는 2D 물리학에 대한 VLMs의 이해를 엄격하게 평가하기 위한 새로운 접근 가능한 프레임워크를 소개한다. 우리의 프레임워크는 실용적인 시나리오 생성기를 포함하며, 이는 투사체 운동, 충돌 역학, 역학, 유체 역학이라는 네 가지 핵심 영역에 걸쳐 400개 이상의 다양한 문제를 생성한다. 네 가지 최첨단 VLMs에 대한 포괄적인 평가를 통해, 모델 규모와 추론 능력 사이의 강한 상관관계를 입증하였으며, 최고 성능을 보인 Qwen2.5-VL-7B 모델은 0.815의 종합 점수를 달성했다. 우리는 모델들이 공식화된 문제에서는 뛰어난 성능을 보이지만, 추상적인 공간 추론이 필요한 영역에서는 상당히 어려움을 겪는다는 것을 발견했다. 이 프레임워크를 설계함으로써, 우리는 VLMs의 과학적 추론 연구를 보다 대중화하고, 그들의 능력과 한계에 대한 더 깊은 통찰을 촉진하고자 한다.
마스크된 확산 대형 언어 모델(dLLMs)은 자기회귀적 LLMs에 대한 유망한 대안으로 부상하고 있으며, 경쟁력 있는 성능을 제공하면서 인페인팅과 같은 독특한 생성 기능을 지원합니다. 우리는 인페인팅이 dLLMs를 위한 강화 학습 알고리즘 설계에 어떻게 기여할 수 있는지 탐구합니다. LLMs를 강화 학습과 조율하는 것은 탐색의 어려움에 직면합니다: 희소한 보상 신호와 모델이 올바른 해결책을 발견하지 못할 때 발생하는 샘플 낭비가 그것입니다. 이러한 비효율성은 LLMs 전반에 영향을 미치지만, dLLMs는 독특한 기회를 제공합니다—그들의 인페인팅 능력이 탐색을 안내할 수 있습니다. 우리는 IGPO(Inpainting Guided Policy Optimization)를 소개합니다. 이는 온라인 샘플링 중에 부분적인 실제 추론 흔적을 전략적으로 삽입하는 강화 학습 프레임워크입니다. 완전한 해결책을 제공하는 것과 달리, 인페인팅은 유망한 궤적 공간으로 탐색을 유도하면서도 자체 생성된 추론을 보존하여, 지도 미세 조정과 강화 학습을 연결합니다. 우리는 IGPO를 GRPO와 같은 그룹 기반 최적화 방법에 적용합니다. 여기서 탐색 실패는 제로 이점과 그래디언트를 초래합니다. IGPO는 의미 있는 그래디언트를 복원하면서 샘플 효율성을 향상시킵니다. 또한, dLLM 생성 패턴과 더 잘 맞는 합성적으로 재작성된 간결한 추적에 대한 지도 미세 조정을 제안합니다. 엔트로피 기반 필터링을 포함한 추가 기술과 함께, 우리의 훈련 레시피는 GSM8K, Math500, AMC 세 가지 수학 벤치마크에서 상당한 성과를 거두며, 완전 주의 마스크 dLLMs에 대한 새로운 최첨단 결과를 달성합니다.
모델 컨텍스트 프로토콜(MCP)은 에이전트-도구 통합 및 상호 운용성을 강화하기 위해 설계된 핵심적인 개방형 표준으로 빠르게 부상하고 있으며, 강력하고 상호 연결된 진정으로 실용적인 에이전트 AI의 새로운 시대를 열 것으로 기대되고 있습니다. 그러나 MCP의 채택이 증가함에도 불구하고, 기존 벤치마크는 종종 이 새로운 패러다임 내에서 실제 에이전트 성능을 제대로 반영하지 못하여, 그들의 진정한 운영 가치에 대한 왜곡된 인식과 능력 차이를 신뢰할 수 있게 구분하지 못하는 문제를 야기하고 있습니다. 이러한 중요한 평가 격차를 해소하기 위해, 우리는 MCP-에이전트벤치(MCP-AgentBench)를 소개합니다. 이는 MCP 매개 도구 상호작용에서 언어 에이전트의 능력을 엄격하게 평가하기 위해 특별히 설계된 포괄적인 벤치마크입니다. MCP-에이전트벤치의 주요 기여 사항은 다음과 같습니다: 188개의 독특한 도구를 갖춘 33개의 운영 서버로 구성된 견고한 MCP 테스트베드 구축; 상호작용 복잡도가 다양한 6개의 범주에 걸쳐 체계적으로 설계된 600개의 쿼리로 구성된 벤치마크 개발; 그리고 실제 작업 성공을 우선시하는 새로운 결과 지향적 평가 방법론인 MCP-Eval의 도입. 선도적인 언어 에이전트에 대한 광범위한 실증적 평가를 통해, 우리는 기초적인 통찰을 제공합니다. MCP-에이전트벤치는 연구 커뮤니티에 MCP의 변혁적인 이점을 완전히 활용할 수 있는 에이전트를 구축, 검증 및 발전시키기 위한 표준화되고 신뢰할 수 있는 프레임워크를 제공함으로써, 진정으로 능력 있고 상호 운용 가능한 AI 시스템으로의 진전을 가속화하고자 합니다.
최근 대규모 언어 모델(LLM)의 발전은 금융 추론 및 시장 이해 분야에서 인상적인 능력을 보여주고 있습니다. TradingAgent와 FINMEM과 같은 다중 에이전트 LLM 프레임워크는 이러한 모델을 장기 투자 작업에 적용하며, 기본적 분석과 감정 기반 입력을 활용하여 전략적 의사결정을 강화합니다. 그러나 이러한 시스템은 고빈도 거래(HFT)의 고속, 정밀도 중심 요구사항에는 적합하지 않습니다. HFT는 기술적 지표, 차트 패턴, 추세 기반 특징과 같은 구조화된 단기 신호를 기반으로 신속하고 위험을 고려한 의사결정을 요구하며, 이는 전통적인 금융 LLM 애플리케이션의 장기적 의미론적 추론과는 구별됩니다. 이를 위해, 우리는 고빈도 알고리즘 트레이딩을 위해 명시적으로 설계된 첫 번째 다중 에이전트 LLM 프레임워크인 QuantAgent를 소개합니다. 이 시스템은 트레이딩을 네 개의 전문 에이전트(Indicator, Pattern, Trend, Risk)로 분해하며, 각 에이전트는 도메인 특화 도구와 구조화된 추론 능력을 갖추어 단기 시간 창에서 시장 역학의 다양한 측면을 포착합니다. 비트코인과 나스닥 선물을 포함한 10가지 금융 상품에 대한 제로샷 평가에서 QuantAgent는 4시간 트레이딩 간격 동안 예측 정확도와 누적 수익률 모두에서 강력한 신경망 및 규칙 기반 베이스라인을 능가하는 우수한 성능을 보여주었습니다. 우리의 연구 결과는 구조화된 금융 사전 지식과 언어 기반 추론을 결합함으로써 고빈도 금융 시장에서 추적 가능한 실시간 의사결정 시스템의 새로운 잠재력을 열어줄 수 있음을 시사합니다.
실용적인 로봇 배포를 위해서는 효율적인 Vision-Language-Action (VLA) 정책 개발이 중요하지만, 현재의 접근 방식은 과도한 계산 비용과 자원 요구 사항에 직면해 있습니다. 기존의 확산 기반 VLA 정책은 강력한 성능을 달성하기 위해 수십억 개의 파라미터를 가진 모델과 방대한 데이터셋을 필요로 합니다. 우리는 이러한 효율성 문제를 해결하기 위해 두 가지 기여를 제안합니다: 중간 모달리티 융합(intermediate-modality fusion)은 LLM 레이어의 최대 50%를 제거하여 확산 헤드에 용량을 재할당하고, 액션 특화 Global-AdaLN 조건화(action-specific Global-AdaLN conditioning)는 모듈식 적응을 통해 파라미터를 20% 절감합니다. 이러한 발전을 통합하여 950M 파라미터의 새로운 VLA인 FLOWER를 개발했습니다. 단 200 H100 GPU 시간으로 사전 학습된 FLOWER는 10개의 시뮬레이션 및 실제 세계 벤치마크에 걸친 190개 작업에서 더 큰 VLA들과 경쟁력 있는 성능을 보여주며, 다양한 로봇 구현체에서 견고성을 입증합니다. 또한, FLOWER는 CALVIN ABC 벤치마크에서 4.53의 새로운 SoTA를 달성했습니다. 데모, 코드 및 사전 학습된 가중치는 https://intuitive-robots.github.io/flower_vla/에서 확인할 수 있습니다.
실제 세계 시나리오에서의 광범위한 적용 가능성으로 인해 롱테일 학습(Long-tailed learning)은 점점 더 많은 관심을 받고 있습니다. 기존 접근법 중에서, 불균형한 레이블 데이터셋에 대량의 비레이블 데이터를 통합하는 롱테일 준지도 학습(Long-Tailed Semi-Supervised Learning, LTSSL)이 효과적인 해결책으로 부상했습니다. 그러나 대부분의 기존 LTSSL 방법은 모델을 처음부터 학습하도록 설계되어, 과도한 자신감(overconfidence)과 저품질의 의사 레이블(pseudo-labels)과 같은 문제를 초래하는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 LTSSL을 파운데이션 모델(foundation model) 미세 조정(fine-tuning) 패러다임으로 확장하고, 새로운 프레임워크인 LoFT(Long-tailed semi-supervised learning via parameter-efficient Fine-Tuning)를 제안합니다. 우리는 미세 조정된 파운데이션 모델이 더 신뢰할 수 있는 의사 레이블을 생성할 수 있음을 보여주며, 이를 통해 불균형 학습에 도움을 줄 수 있음을 입증합니다. 더 나아가, 우리는 비레이블 데이터가 분포 외(out-of-distribution, OOD) 샘플을 포함할 수 있는 개방형 세계(open-world) 조건에서의 준지도 학습을 조사함으로써 더 실용적인 설정을 탐구합니다. 이 문제를 해결하기 위해, 우리는 LoFT-OW(LoFT under Open-World scenarios)를 제안하여 판별 능력을 향상시킵니다. 여러 벤치마크에서의 실험 결과는 우리의 방법이 이전 접근법과 비교했을 때, 비레이블 데이터의 1%만 사용하더라도 우수한 성능을 달성함을 보여줍니다.
우리는 데이터로부터 풍부하게 제어 가능하고 유연하게 프롬프트 가능한 세계 모델을 학습하기 위한 시스템인 확률적 구조 통합(Probabilistic Structure Integration, PSI)을 제안합니다. PSI는 세 단계의 사이클로 구성됩니다. 첫 번째 단계인 확률적 예측(Probabilistic prediction)은 랜덤 액세스 자기회귀 시퀀스 모델 형태로 데이터의 확률적 그래프 모델 Psi를 구축하는 과정입니다. Psi는 데이터 내의 어떤 변수 집합이 다른 변수 집합에 어떻게 의존하는지를 설명하는 완전한 조건부 분포 집합을 학습합니다. 두 번째 단계인 구조 추출(Structure extraction)에서는 Psi에 대한 인과적 추론을 통해 데이터의 저차원 속성에 해당하는 다양한 의미 있는 "중간 구조"를 제로샷 방식으로 추출하는 방법을 보여줍니다. 세 번째 단계인 통합(Integration)은 이러한 구조를 새로운 토큰 유형으로 변환한 후, 이를 조건 신호 및 예측 대상으로서 훈련 데이터에 지속적으로 혼합함으로써 사이클을 완성합니다. 각각의 사이클은 Psi의 능력을 강화하여, 기본 데이터를 더 잘 모델링할 수 있게 하고, LLM과 유사한 범용 프롬프팅 언어와 같은 새로운 제어 핸들을 생성합니다. 우리는 인터넷 비디오 데이터 1.4조 토큰에 대해 Psi의 인스턴스를 훈련시켰으며, 이를 사용하여 다양한 유용한 비디오 예측 및 이해 추론을 수행하고, 최첨단 광학 흐름, 자기 지도 깊이 및 객체 분할을 추출하며, 이러한 구조를 활용하여 예측 개선의 완전한 사이클을 지원합니다.
텍스트-이미지(T2I) 생성에서 정확한 색상 정렬은 패션, 제품 시각화, 인테리어 디자인과 같은 응용 분야에서 매우 중요하지만, 현재의 확산 모델은 미묘하고 복합적인 색상 용어(예: 티파니 블루, 라임 그린, 핫 핑크)를 처리하는 데 어려움을 겪으며, 종종 인간의 의도와 일치하지 않는 이미지를 생성합니다. 기존의 접근 방식은 교차 주의 조작, 참조 이미지, 또는 미세 조정에 의존하지만, 모호한 색상 설명을 체계적으로 해결하지 못합니다. 프롬프트 모호성 하에서 색상을 정확하게 렌더링하기 위해, 우리는 대규모 언어 모델(LLM)을 활용하여 색상 관련 프롬프트의 모호성을 해소하고, 텍스트 임베딩 공간에서 직접 색상 혼합 작업을 안내함으로써 색상 충실도를 향상시키는 학습이 필요 없는 프레임워크를 제안합니다. 우리의 방법은 먼저 대규모 언어 모델(LLM)을 사용하여 텍스트 프롬프트의 모호한 색상 용어를 해결한 다음, CIELAB 색상 공간에서 결과 색상 용어의 공간적 관계를 기반으로 텍스트 임베딩을 개선합니다. 기존 방법과 달리, 우리의 접근 방식은 추가 학습이나 외부 참조 이미지 없이도 색상 정확도를 향상시킵니다. 실험 결과는 우리의 프레임워크가 이미지 품질을 저하시키지 않으면서 색상 정렬을 개선하여 텍스트 의미론과 시각적 생성 간의 격차를 줄이는 것을 보여줍니다.
음성 언어 모델(SLMs)은 자연스러운 인간-기계 상호작용을 가능하게 하며, 음성 이해와 생성을 통합한 패러다임으로 부상하고 있습니다. 그러나 대부분의 연구가 의미론적 정확성과 명령 수행에 초점을 맞추는 동안, SLMs가 음성 명령에 따라 말투를 조정하는 능력은 제한적으로만 주목받아 왔습니다. 본 연구에서는 음성 스타일 적응(Voice Style Adaptation, VSA)이라는 새로운 과제를 소개하며, 이는 SLMs가 음색, 운율, 또는 페르소나와 같은 말투를 자연어 음성 명령에 따라 수정할 수 있는지를 검토합니다. 이 과제를 연구하기 위해, 우리는 음성 생성의 네 가지 범주(음향 속성, 자연어 명령, 역할극, 암묵적 공감)를 아우르는 이중언어(중국어 & 영어) 벤치마크인 VStyle을 제시합니다. 또한, 텍스트 충실도, 스타일 준수도, 자연스러움을 점진적으로 평가하여 재현 가능하고 객관적인 평가를 보장하는 '대형 오디오 언어 모델을 판단자로 활용(LALM as a Judge)' 프레임워크를 소개합니다. 상용 시스템과 오픈소스 SLMs에 대한 실험 결과, 현재 모델들은 제어 가능한 스타일 적응에서 명확한 한계를 보이며, 이 과제의 참신함과 도전 과제를 강조합니다. VStyle과 평가 툴킷을 공개함으로써, 우리는 인간 중심의 음성 상호작용을 발전시키기 위한 기반을 커뮤니티에 제공하고자 합니다. 데이터셋과 코드는 https://junzhan2000.github.io/VStyle.github.io/{프로젝트 홈페이지}에서 공개적으로 이용 가능합니다.
대규모 언어 모델(LLMs)은 다양한 분야에서 놀라운 성과를 거두었습니다. 그러나 근본적인 질문이 남아 있습니다: LLMs가 예측과 생성을 위해 인과적 지식을 효과적으로 활용할 수 있을까요? 실증 연구를 통해, 대규모 데이터에 직접 학습된 LLMs가 진정한 인과 관계보다는 허위 상관관계를 포착하는 경우가 많아, 특히 분포 외(OOD) 시나리오에서 최적의 성능을 내지 못한다는 것을 발견했습니다. 이 문제를 해결하기 위해, 우리는 세밀한 인과적 지식을 주의 메커니즘에 주입하는 새로운 접근법인 인과 주의 조정(Causal Attention Tuning, CAT)을 제안합니다. 우리는 인간의 사전 지식을 활용하여 토큰 수준의 인과 신호를 자동으로 생성하는 자동화된 파이프라인을 제안하고, 재주의(Re-Attention) 메커니즘을 도입하여 모델이 인과 구조에 집중하도록 유도함으로써 주의 점수에서의 노이즈와 편향을 완화합니다. 우리가 제안한 허위 토큰 게임(Spurious Token Game, STG) 벤치마크와 여러 다운스트림 작업에 대한 실험 결과는 우리의 접근법이 예측을 위해 인과적 지식을 효과적으로 활용하며 OOD 시나리오에서도 견고함을 유지한다는 것을 보여줍니다. 구현 세부 사항은 https://github.com/Kairong-Han/CAT에서 확인할 수 있습니다.
외부 컨텍스트를 통합하는 것은 대형 언어 모델(LLM)의 응답 품질을 크게 향상시킬 수 있습니다. 그러나 실제 세계의 컨텍스트는 종종 관련 정보와 불균형적으로 부적절한 내용이 혼합되어 있어 신뢰성 위험을 초래합니다. LLM은 혼합된 컨텍스트를 어떻게 처리하고 우선순위를 정할까요? 이를 연구하기 위해, 우리는 관련 정보와 부적절한 내용을 포함한 실제 세계의 컨텍스트와 쿼리를 짝지은 'Poisoned Context Testbed'를 도입했습니다. 동물의 연관 학습에서 영감을 받아, 우리는 신경과학의 Rescorla-Wagner(RW) 모델을 적응시켜 경쟁적인 컨텍스트 신호가 LLM 출력에 미치는 영향을 정량화했습니다. 우리의 적응 모델은 일관된 행동 패턴을 보여줍니다: LLM은 컨텍스트에서 덜 흔한 정보를 통합하려는 강한 경향을 보입니다. 이러한 취약성은 실제 세계 설정에서 해롭습니다. 소량의 부적절한 내용이 응답 품질을 크게 저하시킬 수 있기 때문입니다. 우리의 테스트베드에서의 실증적 평가는 이 취약성을 추가로 확인했습니다. 이를 해결하기 위해, 우리는 RW-Steering을 도입했습니다. 이는 모델이 내부적으로 부적절한 신호를 식별하고 무시할 수 있도록 하는 두 단계의 미세 조정 기반 접근법입니다. 다양한 컨텍스트 혼합에 걸친 광범위한 감독에 의존하는 기존 방법과 달리, RW-Steering은 부적절한 내용의 비율이 달라도 강력하게 일반화됩니다. 실험 결과, 우리의 최적 미세 조정 모델은 응답 품질을 39.8% 향상시키고 바람직하지 않은 행동 곡선을 역전시켜, RW-Steering이 실제 세계 사용에서 LLM 안전성을 개선하기 위한 강력하고 일반화 가능한 컨텍스트 엔지니어링 솔루션임을 입증했습니다.
테이블과 같은 구조화된 데이터에 대한 시각적 추론은 현대의 시각-언어 모델(VLMs)에게 필수적인 능력이지만, 현재의 벤치마크는 특히 렌더링된 테이블 이미지의 경우 규모, 다양성 또는 추론 깊이 측면에서 제한적입니다. 이러한 격차를 해소하기 위해, 우리는 복잡한 표 형식 데이터에 대한 시각적 추론을 평가하고 향상시키기 위해 특별히 설계된 대규모, 개방형 다중모달 데이터셋인 Visual-TableQA를 소개합니다. 우리의 생성 파이프라인은 모듈식이며 확장 가능하고 완전히 자율적이며, 생성, 검증 및 영감이라는 구별된 역할을 수행하는 여러 추론 LLM들이 협력합니다. Visual-TableQA는 2.5k개의 풍부하게 구조화된 LaTeX 렌더링 테이블과 6k개의 추론 집약적인 QA 쌍으로 구성되어 있으며, 모두 100달러 미만의 비용으로 생성되었습니다. 다양성과 창의성을 촉진하기 위해, 우리의 파이프라인은 크로스 모델 프롬프팅('영감')과 LLM-배심원 필터링을 통해 다중 모델 협업 데이터 생성을 수행합니다. 강력한 모델은 레이아웃과 주제를 제공하고, 약한 모델은 이를 확장하여 다양한 추론 패턴과 시각적 구조를 데이터셋에 집약합니다. 실험 결과, Visual-TableQA에서 미세 조정된 모델은 외부 벤치마크에 대해 견고하게 일반화되며, 데이터셋의 합성적 특성에도 불구하고 여러 독점 모델을 능가합니다. 전체 파이프라인과 리소스는 https://github.com/AI-4-Everyone/Visual-TableQA에서 공개적으로 이용 가능합니다.
본 시스템 논문은 DeMeVa 팀이 Learning with Disagreements 공유 과제의 세 번째 에디션(LeWiDi 2025; Leonardelli et al., 2025)에 대해 제안한 접근 방식을 소개합니다. 우리는 두 가지 방향을 탐구했습니다: 첫째, 대규모 언어 모델을 활용한 컨텍스트 내 학습(in-context learning, ICL)에서 예제 샘플링 전략을 비교하였고, 둘째, RoBERTa(Liu et al., 2019b)를 사용한 레이블 분포 학습(label distribution learning, LDL) 방법에서 여러 미세 조정(fine-tuning) 방법을 평가했습니다. 우리의 기여는 두 가지입니다: (1) ICL이 주석자별 주석(관점주의적 주석)을 효과적으로 예측할 수 있으며, 이러한 예측을 소프트 레이블로 집계하면 경쟁력 있는 성능을 얻을 수 있음을 보였고, (2) LDL 방법이 소프트 레이블 예측에 유망하며, 관점주의 커뮤니티에서 추가 탐구할 가치가 있음을 주장합니다.
대형 언어 모델(LLMs)은 데이터 주석 작업 및 텍스트 분석과 같은 노동 집약적 작업의 자동화를 가능하게 함으로써 사회과학 연구를 빠르게 변화시키고 있습니다. 그러나 LLM의 출력은 연구자들이 선택한 구현 방식(예: 모델 선택, 프롬프트 전략, 또는 온도 설정)에 따라 크게 달라질 수 있습니다. 이러한 변동은 체계적인 편향과 무작위 오류를 초래할 수 있으며, 이는 하위 분석으로 전파되어 제1종 오류(Type I), 제2종 오류(Type II), 제S종 오류(Type S), 또는 제M종 오류(Type M)를 유발할 수 있습니다. 우리는 이를 LLM 해킹(LLM hacking)이라고 부릅니다. 우리는 21편의 출판된 사회과학 연구에서 37개의 데이터 주석 작업을 복제하고 18개의 서로 다른 모델을 사용하여 LLM 해킹의 위험을 정량화했습니다. 1,300만 개의 LLM 레이블을 분석하여, 연구자들의 현실적인 선택이 통계적 결론에 미치는 영향을 측정하기 위해 2,361개의 가설을 테스트했습니다. 우리는 최첨단 모델의 경우 약 3분의 1의 가설에서, 그리고 소형 언어 모델의 경우 절반의 가설에서 LLM 주석 데이터를 기반으로 한 잘못된 결론을 발견했습니다. 우리의 연구 결과는 더 높은 작업 성능과 더 나은 일반 모델 능력이 LLM 해킹 위험을 줄이는 것을 보여주지만, 매우 정확한 모델조차도 이를 완전히 제거하지는 못합니다. LLM 해킹 위험은 효과 크기가 증가함에 따라 감소하며, 이는 유의성 임계값 근처에서 발견된 결과에 대한 더 엄격한 검증의 필요성을 시사합니다. LLM 해킹 완화 기술에 대한 우리의 광범위한 분석은 거짓 양성 발견을 줄이고 모델 선택을 개선하는 데 인간 주석의 중요성을 강조합니다. 놀랍게도, 일반적인 회귀 추정기 보정 기술은 제1종 오류와 제2종 오류 간의 상충 관계가 크기 때문에 LLM 해킹 위험을 줄이는 데 거의 효과가 없습니다. 우연한 오류를 넘어서, 우리는 의도적인 LLM 해킹이 허용할 수 없을 만큼 간단하다는 것을 발견했습니다. 소수의 LLM과 단 몇 개의 프롬프트 패러프레이즈만으로도 어떤 것이든 통계적으로 유의미한 것으로 제시될 수 있습니다.
중국의 티베트어, 위구르어, 전통 몽골어 등 소수민족 언어들은 국제 표준과 다른 독특한 문자 체계로 인해 상당한 어려움에 직면해 있습니다. 이러한 차이로 인해 특히 헤드라인 생성과 같은 지도 학습 작업을 위한 관련 코퍼스가 심각하게 부족한 상황입니다. 이러한 격차를 해소하기 위해, 우리는 티베트어 10만 개, 위구르어와 몽골어 각각 5만 개의 항목으로 구성된 새로운 데이터셋인 중국 소수민족 헤드라인 생성(CMHG)을 소개합니다. 이 데이터셋은 헤드라인 생성 작업을 위해 특별히 제작되었습니다. 또한, 원어민이 주석을 단 고품질 테스트 세트를 제안하여, 이 분야의 향후 연구를 위한 벤치마크로 활용될 수 있도록 설계했습니다. 우리는 이 데이터셋이 중국 소수민족 언어의 헤드라인 생성 발전에 유용한 자원이 되고, 관련 벤치마크 개발에 기여하기를 바랍니다.