번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLMs)의 놀라운 제로샷 능력은 자연어 처리 분야를 작업별 특화 모델에서 통합된 범용 기반 모델로 전환시켰습니다. 이러한 변화는 웹 규모의 데이터로 훈련된 대형 생성 모델이라는 단순한 기본 요소에서 비롯되었습니다. 흥미롭게도, 이러한 기본 요소는 오늘날의 생성형 비디오 모델에도 동일하게 적용됩니다. 비디오 모델이 LLMs가 범용 언어 이해 능력을 개발한 것처럼 범용 시각 이해 능력을 향한 궤도에 오를 수 있을까요? 우리는 Veo 3가 명시적으로 훈련받지 않은 다양한 작업을 해결할 수 있음을 보여줍니다: 객체 분할, 경계 감지, 이미지 편집, 물리적 속성 이해, 객체의 기능 인식, 도구 사용 시뮬레이션 등. 이러한 시각 세계를 인지, 모델링, 조작하는 능력은 미로 해결 및 대칭 해결과 같은 초기 형태의 시각적 추론을 가능하게 합니다. Veo의 제로샷 능력의 출현은 비디오 모델이 통합된 범용 시각 기반 모델로 나아가는 길에 있음을 시사합니다.
암묵적 사고 연쇄(Implicit Chain-of-Thought, CoT) 방법은 대규모 언어 모델(LLMs)에서 명시적 CoT 추론에 비해 토큰 효율성이 뛰어난 대안으로 주목받고 있지만, 지속적인 성능 격차로 인해 암묵적 CoT의 적용이 제한되어 왔습니다. 우리는 암묵적 CoT 접근법의 계산 예산을 확장함으로써 핵심적인 잠재적 불안정성 문제를 확인했습니다: 성능을 향상시키기 위해 암묵적 추론 토큰의 수를 증가시킬수록, 학습 과정이 종종 불안정해지고 붕괴되는 현상이 발생합니다. 우리의 분석에 따르면, 이러한 불안정성은 잠재 표현이 동질화되고 의미적 다양성을 잃어버리기 때문에 발생하며, 이는 기존 암묵적 CoT 접근법에서 단계별 감독이 충분하지 않아 생기는 실패로 인한 것입니다. 이 문제를 해결하기 위해, 우리는 SIM-CoT라는 플러그 앤 플레이(plug-and-play) 학습 모듈을 제안합니다. SIM-CoT는 단계별 감독을 도입하여 잠재 추론 공간을 안정화하고 풍부하게 만듭니다. 구체적으로, SIM-CoT는 학습 중에 보조 디코더를 사용하여 각 암묵적 토큰을 해당하는 명시적 추론 단계와 정렬함으로써, 잠재 상태가 독특하고 의미 있는 정보를 포착하도록 보장합니다. 제안된 보조 디코더는 추론 중에 제거되어, 암묵적 CoT 방법의 계산 효율성을 유지하며 추가 오버헤드 없이 동작합니다. 또한, 보조 디코더는 각 잠재 토큰을 명시적 추론 어휘에 투영함으로써 암묵적 추론의 해석 가능성을 제공하며, 단계별 시맨틱 역할 시각화와 진단을 가능하게 합니다. SIM-CoT는 다양한 암묵적 CoT 방법의 도메인 내 정확도와 도메인 외 안정성을 크게 향상시켜, GPT-2에서 Coconut과 같은 베이스라인을 +8.2%, LLaMA-3.1 8B에서 CODI를 +3.0%만큼 향상시켰습니다. 강력한 확장성을 보여주는 SIM-CoT는 또한 GPT-2에서 명시적 CoT 베이스라인을 2.1% 앞서며 2.3배 더 높은 토큰 효율성을 달성했고, LLaMA-3.1 8B와 같은 더 큰 모델에서도 성능 격차를 크게 좁혔습니다.
우리는 Gemma 3 언어 모델 패밀리를 기반으로 한 새로운 경량 오픈 텍스트 임베딩 모델인 EmbeddingGemma를 소개합니다. 우리의 혁신적인 학습 방법론은 인코더-디코더 초기화와 기하학적 임베딩 증류를 통해 더 큰 모델로부터 지식을 전략적으로 포착합니다. 모델의 견고성과 표현력을 향상시키기 위해 확산 정규화 기법을 사용하고, 다양한 최적화된 혼합체에서 체크포인트를 병합함으로써 일반화 능력을 보장합니다. 다국어, 영어, 코드 도메인에 걸친 Massive Text Embedding Benchmark(MTEB)에서 평가된 EmbeddingGemma(300M)는 최첨단 결과를 달성했습니다. 특히, 500M 미만의 파라미터로 사유 및 오픈 소스 모델을 모두 능가하며, 크기가 두 배인 모델과 비슷한 성능을 제공하여 탁월한 성능 대비 비용 효율성을 보여줍니다. 이 우수성은 모델 가중치 양자화나 임베딩 출력 단축 시에도 유지되어, EmbeddingGemma는 저지연 및 고처리량 사용 사례(예: 온디바이스 애플리케이션)에 특히 적합합니다. 우리는 주요 설계 선택을 탐구하는 절제 연구를 제공하며, EmbeddingGemma를 커뮤니티에 공개하여 추가 연구를 촉진합니다.
최근 파운데이션 모델의 발전은 통합과 확장이라는 명확한 트렌드를 보여주며, 다양한 도메인에서의 새로운 능력이 나타나고 있음을 보여줍니다. 이미지 생성 및 편집은 작업별 특화된 방식에서 통합된 프레임워크로 빠르게 전환되었지만, 비디오 생성 및 편집은 아키텍처적 한계와 데이터 부족으로 인해 여전히 분열된 상태입니다. 본 연구에서는 단일 모델 내에서 이미지와 비디오 생성 및 편집을 위한 통합 프레임워크인 EditVerse를 소개합니다. 텍스트, 이미지, 비디오와 같은 모든 모달리티를 통합된 토큰 시퀀스로 표현함으로써, EditVerse는 자기 주의 메커니즘을 활용하여 강력한 문맥 내 학습, 자연스러운 교차 모달 지식 전달, 그리고 임의의 해상도와 지속 시간을 가진 입력과 출력의 유연한 처리를 달성합니다. 비디오 편집 학습 데이터의 부족을 해결하기 위해, 우리는 232K개의 비디오 편집 샘플을 큐레이팅하고 이를 대규모 이미지 및 비디오 데이터셋과 결합하여 공동 학습을 수행하는 확장 가능한 데이터 파이프라인을 설계했습니다. 또한, 다양한 작업과 해상도를 포함한 최초의 지시 기반 비디오 편집 벤치마크인 EditVerseBench를 제시합니다. 광범위한 실험과 사용자 연구를 통해 EditVerse가 최신 기술을 능가하는 성능을 달성하며, 기존의 오픈소스 및 상용 모델을 능가하고, 다양한 모달리티에서 새로운 편집 및 생성 능력을 보여줌을 입증합니다.
본 논문에서는 개방형 음성 이해 작업(예: 음성 질의응답 및 자동 음성 번역)에 대해 음성 인식 대형 언어 모델(SALLMs)을 훈련하기 위해 그룹 상대적 정책 최적화(GRPO) 기반 방법을 소개합니다. SALLMs은 음성 이해 작업에서 매우 효과적인 것으로 입증되었습니다. GRPO는 최근 LLMs 훈련의 효율성으로 주목받고 있으며, 선행 연구에서는 주로 객관식 작업에 GRPO를 SALLMs에 적용하는 방법을 탐구했습니다. 이를 바탕으로, 우리는 모델의 생성 능력을 더 잘 반영하는 개방형 작업에 초점을 맞춥니다. 우리의 접근 방식은 BLEU를 보상 신호로 활용하여 GRPO를 통해 SALLMs를 최적화하며, 여러 주요 지표에서 표준 SFT를 능가한다는 것을 실증적으로 입증합니다. 마지막으로, 이러한 작업에서 GRPO 내에 오프-정책 샘플을 통합할 가능성을 탐구하여 추가 개선 및 연구를 위한 방향성을 제시합니다.
최첨단 인공지능(AI) 기술은 우리의 세계관을 계속해서 재구성하고 있습니다. 예를 들어, ChatGPT와 같은 대규모 언어 모델(LLM) 기반 애플리케이션은 다양한 주제에 대해 인간과 유사한 대화를 생성할 수 있는 능력을 보여주었습니다. 다양한 언어 관련 작업(예: 개방형 질문 응답, 번역, 문서 요약)에서의 인상적인 성능으로 인해, LLM이 더 넓은 실제 세계 응용 분야(예: 고객 서비스, 교육 및 접근성, 과학적 발견)에서 가져올 수 있는 광범위한 영향을 상상할 수 있습니다. 이러한 성공에 영감을 받아, 본 논문은 최신 LLM과 이를 다양한 학문 분야에 통합하는 방법에 대한 개요를 제공할 것입니다. 이 학문 분야에는 (1) 예술, 인문학 및 법학(예: 역사, 철학, 정치학, 예술 및 건축, 법학), (2) 경제학 및 경영학(예: 금융, 경제학, 회계, 마케팅), (3) 과학 및 공학(예: 수학, 물리학 및 기계공학, 화학 및 화학공학, 생명과학 및 생물공학, 지구과학 및 토목공학, 컴퓨터과학 및 전기공학)이 포함됩니다. 인간성과 기술을 통합하는 본 논문에서는 LLM이 이러한 분야에서 연구와 실무를 어떻게 형성하고 있는지 탐구하며, 생성적 AI 시대의 주요 한계, 열린 과제 및 미래 방향에 대해서도 논의할 것입니다. 다양한 학문 분야에서 LLM이 어떻게 활용되고 있는지에 대한 검토와 주요 관찰 및 통찰은 LLM을 활용하여 다양한 실제 응용 분야에서 자신의 작업을 발전시키고자 하는 연구자와 실무자에게 도움이 될 수 있습니다.
기존의 비디오 생성 모델은 텍스트나 이미지에서 사진처럼 사실적인 비디오를 생성하는 데 뛰어나지만, 종종 물리적 타당성과 3D 제어 가능성이 부족합니다. 이러한 한계를 극복하기 위해, 우리는 물리적 매개변수와 힘 제어를 통해 물리학에 기반한 이미지-비디오 생성을 위한 새로운 프레임워크인 PhysCtrl을 소개합니다. 이 프레임워크의 핵심은 물리 매개변수와 적용된 힘에 따라 조건화된 확산 모델을 통해 네 가지 재료(탄성체, 모래, 플라스틱, 고체)에 걸친 물리적 역학의 분포를 학습하는 생성 물리 네트워크입니다. 우리는 물리적 역학을 3D 점 궤적으로 표현하고, 물리 시뮬레이터로 생성된 550K 애니메이션으로 구성된 대규모 합성 데이터셋에서 학습합니다. 우리는 확산 모델을 개선하기 위해 입자 상호작용을 모방하는 새로운 시공간적 주의 블록을 도입하고, 훈련 중 물리학 기반 제약 조건을 통합하여 물리적 타당성을 강화합니다. 실험 결과, PhysCtrl은 현실적이고 물리학에 기반한 운동 궤적을 생성하며, 이를 이미지-비디오 모델에 적용할 때 시각적 품질과 물리적 타당성 모두에서 기존 방법을 능가하는 고품질의 제어 가능한 비디오를 생성합니다. 프로젝트 페이지: https://cwchenwang.github.io/physctrl
우리는 다중 모달 이해 및 생성을 위한 통합 마스크 확산 모델(Masked Diffusion Model, MDM)인 Lavida-O를 제안한다. MMaDa와 Muddit와 같은 기존의 다중 모달 MDM들이 단순한 이미지 수준의 이해 작업과 저해상도 이미지 생성만을 지원하는 반면, Lavida-O는 이미지 수준의 이해, 객체 그라운딩, 이미지 편집, 그리고 고해상도(1024px) 텍스트-이미지 합성을 가능하게 하는 단일 프레임워크를 제공한다. Lavida-O는 토큰 압축, 범용 텍스트 조건화, 그리고 계층적 샘플링을 통해 효율적이고 고품질의 생성을 지원하는 경량 생성 브랜치와 더 큰 이해 브랜치를 결합한 새로운 Elastic Mixture-of-Transformers(Elastic-MoT) 아키텍처를 도입한다. Lavida-O는 이미지 생성 및 편집 작업에서 계획 및 반복적 자기 반영을 추가로 통합하여, 그 이해 능력을 통해 생성 품질을 원활하게 향상시킨다. Lavida-O는 RefCOCO 객체 그라운딩, GenEval 텍스트-이미지 생성, 그리고 ImgEdit 이미지 편집을 포함한 다양한 벤치마크에서 최첨단 성능을 달성하며, Qwen2.5-VL 및 FluxKontext-dev와 같은 기존의 자기회귀 모델 및 연속 확산 모델을 능가하면서 추론 속도에서 상당한 개선을 제공한다. 이러한 발전들은 Lavida-O를 확장 가능한 다중 모달 추론 및 생성을 위한 새로운 패러다임으로 자리매김하게 한다.
단백질 접힘 모델은 일반적으로 도메인 지식을 아키텍처 블록과 학습 파이프라인에 통합함으로써 획기적인 결과를 달성해 왔습니다. 그러나 관련된 다양한 문제들에서 생성 모델의 성공을 고려할 때, 이러한 아키텍처 설계가 고성능 모델을 구축하기 위한 필수 조건인지에 대한 의문을 제기하는 것은 자연스러운 일입니다. 본 논문에서는 일반적인 목적의 트랜스포머 블록만을 사용하는 최초의 플로우 매칭 기반 단백질 접힘 모델인 SimpleFold을 소개합니다. 단백질 접힘 모델은 일반적으로 삼각형 업데이트, 명시적 쌍 표현, 또는 이 특정 도메인을 위해 설계된 다중 학습 목표와 같은 계산 비용이 많이 드는 모듈을 사용합니다. 반면, SimpleFold은 적응형 레이어를 갖춘 표준 트랜스포머 블록을 사용하며, 추가적인 구조적 항목이 포함된 생성적 플로우 매칭 목표를 통해 학습됩니다. 우리는 SimpleFold을 30억 개의 파라미터로 확장하고 약 900만 개의 정제된 단백질 구조와 실험적 PDB 데이터를 사용하여 학습시켰습니다. 표준 접힘 벤치마크에서 SimpleFold-3B는 최첨단 기준선과 비교하여 경쟁력 있는 성능을 달성했으며, 결정론적 재구성 목표를 통해 학습된 모델들이 일반적으로 어려워하는 앙상블 예측에서도 강력한 성능을 보여주었습니다. 일반적인 목적의 아키텍처 덕분에 SimpleFold은 소비자 수준의 하드웨어에서의 배포와 추론에서 효율성을 보여줍니다. SimpleFold은 단백질 접힘에서 복잡한 도메인 특화 아키텍처 설계에 대한 의존성에 도전하며, 미래의 진보를 위한 대안적인 설계 공간을 열어줍니다.
오픈소스 대형 언어 모델(LLMs)은 점차 특정 도메인(예: 수학, 코드, 일반 추론)에 특화되면서, 여러 모델의 상호 보완적 강점을 활용하는 시스템에 대한 필요성이 대두되고 있다. 기존의 다중 LLM 접근 방식은 (i) 쿼리를 하나 또는 소수의 전문가 모델로 라우팅하여 독립적으로 생성하거나, (ii) 비용이 많이 드는 다중 턴 교환을 통해 각 모델의 출력을 통합하거나, (iii) 가중치를 단일 모델로 융합하는 방식으로, 일반적으로 아키텍처의 동질성을 요구한다. 본 연구에서는 이질적인 전문가 모델 간의 잠재 수준 협업을 위한 간단한 방법인 Mixture of Thoughts (MoT)를 소개한다. 각 쿼리에 대해 경량 라우터가 상위 K개의 전문가 모델을 선택하고 주 전문가를 지정하며, 균일하게 배치된 상호작용 계층은 은닉 상태를 공유 잠재 공간으로 투영하여 주 전문가가 선택된 동료 모델들에 대해 교차 주의(cross-attention)를 수행한다. 사전 훈련된 전문가 모델은 고정된 상태로 유지되며, 라우터와 경량 상호작용 계층만이 전문가 선택과 전문가 간 협업을 모두 개선하는 새로운 공동 훈련 목표를 통해 학습된다. 5개의 인-분포(In-Distribution, ID) 벤치마크와 3개의 외-분포(Out-of-Distribution, OOD) 벤치마크에서 MoT는 현재 최신 기술인 Avengers를 각각 +0.38% 및 +2.92%로 능가한다. 또한, MoT는 단일 모델 중 최고 성능을 크게 뛰어넘는다. 이는 단일 패스 추론, 라우팅 기준선과 유사한 런타임, 그리고 반복적 통합의 오버헤드 없이 달성된다. MoT는 이질적인 LLM을 결합하기 위한 간단한 잠재 공간 메커니즘을 제공하며, 더 넓은 다중 LLM 협업을 위한 실질적인 단계를 제시한다. 본 연구의 코드는 https://github.com/jacobfa/mot에서 공개되어 있다.
대형 시각-언어 모델(LVLM)의 최근 발전은 문서 파싱 작업에서 상당한 진전을 이끌어냈습니다. 기존의 파이프라인 기반 방법과 비교하여, 종단 간(end-to-end) 패러다임은 광학 문자 인식(OCR), 표 인식, 수학 공식 인식 등을 통합하여 PDF 이미지를 구조화된 출력으로 변환하는 데 탁월한 성능을 보여주었습니다. 그러나 문서 레이아웃과 읽기 순서에 대한 명시적인 분석 단계가 부족하여 LVLM이 다단 신문이나 포스터와 같은 복잡한 문서 유형을 처리하는 데 한계가 있습니다. 이러한 한계를 해결하기 위해, 본 보고서에서는 강화 학습을 통해 보강된 종단 간 LVLM 기반 모델인 Logics-Parsing을 제안합니다. 우리의 모델은 복잡한 레이아웃 분석과 읽기 순서 추론을 최적화하기 위해 세심하게 설계된 보상 메커니즘을 통합합니다. 또한, 화학 공식과 손글씨 한자와 같은 다양한 데이터 유형을 지도 미세 조정에 통합하여 모델의 다용성을 확장했습니다. 마지막으로, 우리의 접근 방식을 엄격하게 평가하기 위해 9개의 주요 범주와 20개 이상의 하위 범주에 걸친 1,078개의 페이지 수준 PDF 이미지로 구성된 LogicsParsingBench를 소개합니다. 이 데이터셋은 추후 공개될 예정입니다. LogicsParsingBench에서 수행된 포괄적인 실험을 통해 제안된 모델이 다양한 문서 분석 시나리오에서 최첨단(SOTA) 성능을 보이는 효과성을 검증했습니다. 프로젝트 페이지: https://github.com/alibaba/Logics-Parsing
대형 언어 모델(LLM)은 점차 소프트웨어 개발 프로세스에 통합되고 있습니다. 자율적인 AI 에이전트를 통해 최소한의 인간 개입으로 코드를 생성하고 풀 리퀘스트를 제출하는 능력은 표준 관행이 될 전망입니다. 그러나 이러한 풀 리퀘스트의 실질적인 유용성과 실제 프로젝트에서 그 기여가 얼마나 수용되는지에 대해서는 알려진 바가 거의 없습니다. 본 논문에서는 에이전트형 코딩 도구인 Claude Code를 사용하여 생성된 157개의 다양한 오픈소스 프로젝트에서 567개의 GitHub 풀 리퀘스트(PR)를 실증적으로 연구합니다. 우리의 분석은 개발자들이 리팩토링, 문서화, 테스트와 같은 작업에 에이전트를 의존하는 경향이 있음을 보여줍니다. 결과에 따르면, 이러한 에이전트 지원 PR의 83.8%가 프로젝트 관리자에 의해 최종적으로 수락 및 병합되며, 병합된 PR의 54.9%는 추가 수정 없이 통합됩니다. 나머지 45.1%는 버그 수정, 문서화, 프로젝트별 표준 준수와 같은 작업에서 인간의 수정을 통해 이점을 얻습니다. 이러한 연구 결과는 에이전트 지원 PR이 대체로 수용 가능하지만 여전히 인간의 감독과 개선이 필요함을 시사합니다.
HS 코드(Harmonized Tariff Schedule)에 따른 제품의 정확한 분류는 글로벌 무역에서 중요한 병목 현상이지만, 머신러닝 커뮤니티에서는 거의 주목받지 못했습니다. 잘못된 분류는 선적을 완전히 중단시킬 수 있으며, 주요 우편 운영사들은 불완전한 세관 서류로 인해 미국으로의 배송을 중단하기도 합니다. 우리는 미국 세관의 CROSS(Customs Rulings Online Search System)에서 파생된 HS 코드 분류를 위한 첫 번째 벤치마크를 소개합니다. 주요 LLM(Large Language Model)을 평가한 결과, 우리가 미세 조정한 Atlas 모델(LLaMA-3.3-70B)은 10자리 코드 분류에서 40%, 6자리 코드 분류에서 57.5%의 정확도를 달성했으며, 이는 GPT-5-Thinking보다 15포인트, Gemini-2.5-Pro-Thinking보다 27.5포인트 향상된 수치입니다. 정확도 외에도 Atlas는 GPT-5-Thinking보다 약 5배, Gemini-2.5-Pro-Thinking보다 약 8배 저렴하며, 데이터 프라이버시를 보장하기 위해 자체 호스팅이 가능하여 고위험 무역 및 규제 워크플로우에 적합합니다. Atlas가 강력한 기준을 제시했음에도 불구하고, 이 벤치마크는 여전히 매우 도전적인 과제로 남아 있으며, 10자리 코드 정확도는 40%에 그칩니다. 데이터셋과 모델을 모두 공개함으로써, 우리는 HS 코드 분류를 새로운 커뮤니티 벤치마크 과제로 자리매김하고, 검색, 추론, 정렬 분야의 향후 연구를 촉진하고자 합니다.
2차원 비압축성 켈빈-헬름홀츠 불안정성을 성층 전단 유동에서 시뮬레이션하기 위한 오픈소스 Python 라이브러리를 소개한다. 이 솔버는 고속 사인 변환을 통한 스펙트럴 푸아송 해법과 분수 단계 투영법을 사용하여 2차 공간 정확도를 달성한다. 구현은 효율적인 계산을 위해 NumPy, SciPy 및 Numba JIT 컴파일을 활용한다. 레이놀즈 수 1000~5000과 리처드슨 수 0.1~0.3 범위에서 네 가지 표준 테스트 케이스(고전적 전단층, 이중 전단 구성, 회전 유동, 강제 난류)를 탐구한다. 섀넌 엔트로피와 복잡도 지수를 사용한 통계 분석은 이중 전단층이 더 낮은 레이놀즈 수에도 불구하고 강제 난류보다 2.8배 높은 혼합율을 달성함을 보여준다. 이 솔버는 표준 데스크톱 하드웨어에서 효율적으로 실행되며, 384×192 격자 시뮬레이션은 약 31분 내에 완료된다. 결과는 혼합 효율이 강도 측정치만이 아니라 불안정성 생성 경로에 의존함을 보여주며, 리처드슨 수 기반 매개변수화에 대한 도전을 제기하고 기후 모델에서의 하위 격자 규모 표현을 개선할 필요성을 시사한다.