번역이 포함된 일일 선별된 AI 연구 논문
딥러닝은 많은 분야에서 놀라운 성과를 거두었지만, 역사적으로 테이블 형식의 학습 작업에서는 그 성능이 저조했으며, 이 분야는 여전히 그래디언트 부스팅 결정 트리(GBDT)가 주도하고 있습니다. 그러나 최근의 발전으로 인해 테이블 형식 데이터에 대한 기초 모델(Tabular Foundation Models)의 가능성이 열리고 있으며, 이러한 모델은 실제 세계의 지식을 활용하고 다양한 데이터셋 간에 일반화할 수 있는 능력을 갖추고 있습니다. 특히 데이터에 자유 텍스트가 포함된 경우에 이러한 가능성이 더욱 두드러집니다. 언어 모델의 기능을 테이블 작업에 통합하려는 시도는 있었지만, 기존의 대부분의 방법은 정적이고 목표에 무관한 텍스트 표현을 사용하여 그 효과가 제한적이었습니다. 우리는 TabSTAR: Semantically Target-Aware Representations를 갖춘 기초 테이블 모델을 소개합니다. TabSTAR는 텍스트 특성을 포함한 테이블 데이터에 대한 전이 학습을 가능하게 하도록 설계되었으며, 데이터셋별 매개변수가 없는 아키텍처를 갖추고 있습니다. 이 모델은 사전 훈련된 텍스트 인코더를 해제하고 목표 토큰을 입력으로 받아, 작업별 임베딩을 학습하는 데 필요한 컨텍스트를 제공합니다. TabSTAR는 텍스트 특성을 포함한 분류 작업의 알려진 벤치마크에서 중간 및 대규모 데이터셋에 대해 최첨단 성능을 달성하며, 사전 훈련 단계에서 데이터셋 수에 따른 스케일링 법칙을 보여주어 추가적인 성능 개선의 길을 제시합니다.
최근의 대규모 추론 모델(LRMs)은 강화 학습(RL)을 통해 강력한 추론 능력을 보여주고 있습니다. 이러한 개선은 주로 짧은 문맥의 추론 작업에서 관찰되었습니다. 반면, RL을 통해 LRMs를 확장하여 긴 문맥 입력을 효과적으로 처리하고 추론하는 것은 여전히 중요한 미해결 과제로 남아 있습니다. 이러한 격차를 해소하기 위해, 우리는 먼저 긴 문맥 추론 RL의 패러다임을 공식화하고, 최적화되지 않은 훈련 효율성과 불안정한 최적화 과정에서의 주요 문제점을 식별합니다. 이러한 문제를 해결하기 위해, 우리는 점진적인 문맥 확장을 통해 짧은 문맥 LRMs를 긴 문맥 시나리오에 적응시키는 QwenLong-L1 프레임워크를 제안합니다. 구체적으로, 우리는 견고한 초기 정책을 수립하기 위해 워밍업 지도 미세 조정(SFT) 단계를 활용하고, 정책 진화를 안정화하기 위해 커리큘럼 기반 단계적 RL 기술을 적용하며, 정책 탐색을 촉진하기 위해 난이도 인식 회고 샘플링 전략을 강화합니다. 7개의 긴 문맥 문서 질문-응답 벤치마크에서의 실험은 QwenLong-L1-32B가 OpenAI-o3-mini 및 Qwen3-235B-A22B와 같은 주요 LRMs를 능가하며, Claude-3.7-Sonnet-Thinking과 동등한 성능을 달성함으로써 최첨단 LRMs 중에서 선두적인 성능을 보여줍니다. 이 작업은 정보 집약적인 환경에서 견고한 추론이 가능한 실용적인 긴 문맥 LRMs의 개발을 진전시킵니다.
대규모 언어 모델(LLM)은 복잡한 추론 작업에서 뛰어난 성능을 보이지만, 계산 비용이 높아 실제 배포에는 제약이 따릅니다. 이를 해결하기 위해 최근 연구들은 교사 LLM의 사고 사슬(CoT) 추적을 활용해 더 작은 언어 모델(sLM)로 추론 능력을 증류하는 데 초점을 맞추고 있습니다. 그러나 이 접근법은 희귀한 사실 지식이나 정확한 계산이 필요한 시나리오에서 한계를 보이며, sLM은 제한된 능력으로 인해 허구적인 결과를 생성하는 경우가 많습니다. 본 연구에서는 LLM 기반 에이전트의 추론 능력뿐만 아니라 전체 문제 해결 행동을 검색 및 코드 도구를 갖춘 sLM으로 전이하기 위한 에이전트 증류 프레임워크를 제안합니다. 우리는 에이전트 증류를 두 가지 상호 보완적인 측면에서 개선합니다: (1) 교사 생성 궤적의 품질을 향상시키기 위해 '첫 번째 생각 프리픽스'라는 프롬프팅 방법을 도입하고, (2) 작은 에이전트의 테스트 시 견고성을 개선하기 위해 자기 일관성 있는 행동 생성을 제안합니다. 우리는 사실 및 수학적 영역에 걸친 8가지 추론 작업에서 이 방법을 평가하며, 도메인 내 및 도메인 외 일반화를 모두 다룹니다. 실험 결과, 0.5B, 1.5B, 3B 파라미터 크기의 sLM이 CoT 증류를 통해 미세 조정된 1.5B, 3B, 7B 크기의 다음 단계 대형 모델과 경쟁력 있는 성능을 달성할 수 있음을 보여주며, 도구를 사용하는 실용적인 작은 에이전트 구축을 위한 에이전트 증류의 잠재력을 입증합니다. 우리의 코드는 https://github.com/Nardien/agent-distillation에서 확인할 수 있습니다.
대규모 언어 모델(LLM)의 급속한 발전은 전례 없는 수준의 계산 요구량 증가와 동반되어 왔으며, 최첨단 모델의 학습 비용은 몇 달마다 두 배씩 증가하고 있다. 저정밀도 연산을 통해 직접 모델을 학습시키는 것은 계산 처리량과 에너지 효율성을 모두 개선하는 해결책을 제공한다. 특히, NVIDIA의 최신 Blackwell 아키텍처는 극단적으로 낮은 정밀도 연산, 특히 FP4 변형을 가능하게 하여 상당한 효율성 향상을 약속한다. 그러나 현재 FP4 정밀도로 LLM을 학습시키는 알고리즘은 심각한 정확도 저하를 겪으며, 종종 혼합 정밀도 대체 방식을 의존한다. 본 논문에서는 하드웨어 지원 FP4 학습을 체계적으로 조사하고, 주요 계산(예: 선형 레이어)이 저정밀도로 수행되는 정확한 종단 간 FP4 학습을 가능하게 하는 새로운 접근법인 Quartet을 소개한다. Llama 유형 모델에 대한 광범위한 평가를 통해, 다양한 비트 폭에 걸친 성능 트레이드오프를 정량화하고 정확도 대 계산 측면에서 "근사 최적"의 저정밀도 학습 기법인 Quartet을 식별할 수 있는 새로운 저정밀도 스케일링 법칙을 밝혀낸다. 우리는 NVIDIA Blackwell GPU에 맞춰 최적화된 CUDA 커널을 사용하여 Quartet을 구현하고, FP4 정밀도에서 최첨단 정확도를 달성하며 10억 규모 모델을 성공적으로 학습시킬 수 있음을 보여준다. 우리의 방법은 완전한 FP4 기반 학습이 표준 정밀도 및 FP8 학습에 대한 경쟁력 있는 대안임을 입증한다. 우리의 코드는 https://github.com/IST-DASLab/Quartet에서 확인할 수 있다.
대규모 언어 모델은 길고 복잡한 추론 작업에서 놀라운 숙련도를 보여왔습니다. 그러나 이러한 모델들은 종종 익숙한 추론 패턴에 과도하게 의존하는 문제를 보이는데, 우리는 이를 '추론 경직성(reasoning rigidity)'이라고 명명합니다. 사용자의 명시적인 지시에도 불구하고, 이러한 모델들은 종종 명확히 제시된 조건을 무시하고 익숙한 추론 경로를 기본값으로 사용하여 잘못된 결론에 이르게 됩니다. 이러한 행동은 특히 수학 및 논리 퍼즐과 같은 영역에서 중요한 도전 과제로 작용하는데, 이는 지정된 제약 조건을 정확히 준수하는 것이 매우 중요하기 때문입니다. 이전 연구에서 크게 다루지 않았던 추론 경직성을 체계적으로 조사하기 위해, 우리는 전문가가 선별한 진단 데이터셋을 소개합니다. 우리의 데이터셋은 기존의 수학 벤치마크인 AIME와 MATH500의 특별히 수정된 변형과 익숙한 추론 전략에서 벗어나도록 의도적으로 재설계된 잘 알려진 퍼즐들을 포함합니다. 이 데이터셋을 사용하여, 모델들이 익숙한 추론을 기본값으로 사용할 때 발생하는 반복적인 오염 패턴을 식별합니다. 구체적으로, 우리는 이러한 오염을 세 가지 독특한 모드로 분류합니다: (i) 해석 과부하(Interpretation Overload), (ii) 입력 불신(Input Distrust), (iii) 부분적 지시 주의(Partial Instruction Attention). 각각의 모드는 모델이 제공된 지시를 무시하거나 왜곡하게 만듭니다. 우리는 언어 모델의 추론 경직성을 완화하기 위한 미래 연구를 촉진하기 위해 이 진단 데이터셋을 공개합니다.
강화 학습(Reinforcement Learning, RL)은 시각-언어 모델(Vision-Language Models, VLMs)의 추론 능력을 크게 발전시켰습니다. 그러나 추론 작업을 넘어서는 RL의 활용, 특히 객체 탐지 및 그라운딩과 같은 지각 중심 작업에 대한 연구는 아직 미흡한 상태입니다. 본 연구에서는 V-Triune이라는 시각적 삼위일체 통합 강화 학습 시스템을 제안합니다. V-Triune은 VLMs이 단일 학습 파이프라인 내에서 시각적 추론과 지각 작업을 동시에 학습할 수 있도록 설계되었습니다. V-Triune은 세 가지 상호 보완적인 구성 요소로 이루어져 있습니다: 샘플 수준 데이터 포맷팅(다양한 작업 입력을 통합하기 위해), 검증자 수준 보상 계산(전문 검증자를 통해 맞춤형 보상을 제공하기 위해), 그리고 소스 수준 메트릭 모니터링(데이터 소스 수준에서 문제를 진단하기 위해). 또한, V-Triune이 처리하는 지각 작업에 대해 적응적, 점진적, 명확한 피드백을 제공하는 새로운 Dynamic IoU 보상을 도입했습니다. 이 접근 방식은 오픈소스 7B 및 32B 백본 모델을 사용한 기성 RL 학습 프레임워크 내에서 구현되었습니다. 그 결과물인 Orsta(One RL to See Them All) 모델은 추론 및 지각 작업 전반에 걸쳐 일관된 성능 향상을 보여줍니다. 이러한 광범위한 능력은 네 가지 대표적인 시각적 추론 작업(수학, 퍼즐, 차트, 과학)과 네 가지 시각적 지각 작업(그라운딩, 탐지, 계수, OCR)을 중심으로 구성된 다양한 데이터셋에 대한 학습에 의해 크게 형성되었습니다. 이후 Orsta는 MEGA-Bench Core에서 7B 및 32B 모델 변종에 걸쳐 +2.1에서 +14.1에 이르는 상당한 성능 향상을 달성하며, 다양한 다운스트림 작업으로까지 그 성능 이점이 확장되었습니다. 이러한 결과는 VLMs을 위한 통합 RL 접근 방식의 효과성과 확장성을 강조합니다. V-Triune 시스템과 Orsta 모델은 https://github.com/MiniMax-AI에서 공개적으로 제공됩니다.
기존 벤치마크는 지능의 중요한 측면인 물리적 추론, 즉 도메인 지식, 기호적 추론, 그리고 현실 세계의 제약 조건을 통합적으로 이해하는 능력을 포착하지 못하고 있습니다. 이러한 격차를 해결하기 위해, 우리는 시각적 시나리오에서 물리학 기반 추론 능력을 평가하기 위해 설계된 첫 번째 대규모 벤치마크인 PhyX를 소개합니다. PhyX는 열역학, 전자기학, 역학, 현대 물리학, 광학, 파동 및 음향학 등 6개의 핵심 물리학 도메인과 25개의 하위 도메인에 걸쳐 3,000개의 세심하게 선별된 다중 모드 질문을 포함합니다. 우리의 포괄적인 평가에서, 최첨단 모델들조차 물리적 추론에서 상당한 어려움을 겪는 것으로 나타났습니다. GPT-4o, Claude3.7-Sonnet, GPT-o4-mini는 각각 32.5%, 42.2%, 45.8%의 정확도를 보였는데, 이는 인간 전문가와 비교하여 29% 이상의 성능 격차를 보입니다. 우리의 분석은 현재 모델들의 주요 한계를 드러냅니다: 기억된 학문적 지식에 대한 과도한 의존, 수학적 공식에 대한 지나친 의존, 그리고 진정한 물리적 이해보다는 표면적인 시각적 패턴 매칭에 치중하는 경향 등이 그것입니다. 우리는 세부 통계, 상세한 사례 연구, 그리고 다양한 평가 패러다임을 통해 물리적 추론 능력을 철저히 검토하는 심층 분석을 제공합니다. 재현성을 보장하기 위해, VLMEvalKit과 같은 널리 사용되는 툴킷을 기반으로 한 호환 가능한 평가 프로토콜을 구현하여 원클릭 평가가 가능하도록 했습니다.
본 기술 보고서는 QwenLong-CPRS를 소개한다. 이는 명시적인 장문맥 최적화를 위해 설계된 컨텍스트 압축 프레임워크로, 프리필 단계에서 발생하는 과도한 계산 오버헤드와 장문 시퀀스 처리 시 대형 언어 모델(LLM)의 "중간에서 길을 잃는" 성능 저하 문제를 해결한다. QwenLong-CPRS는 새로운 동적 컨텍스트 최적화 메커니즘을 통해 구현되며, 자연어 지시에 따른 다중 세분화 컨텍스트 압축을 가능하게 하여 효율성 향상과 성능 개선을 동시에 달성한다. Qwen 아키텍처 시리즈에서 진화한 QwenLong-CPRS는 네 가지 주요 혁신을 도입한다: (1) 자연어 지시 기반 동적 최적화, (2) 경계 인식 강화를 위한 양방향 추론 레이어, (3) 언어 모델링 헤드가 포함된 토큰 비평 메커니즘, (4) 윈도우 병렬 추론. 5개 벤치마크(4K-2M 단어 컨텍스트)에 걸친 포괄적인 평가를 통해 QwenLong-CPRS의 세 가지 효과를 입증했다: (1) RAG 및 희소 주의력과 같은 다른 컨텍스트 관리 방법보다 정확도와 효율성 모두에서 일관된 우수성. (2) GPT-4o, Gemini2.0-pro, Claude3.7-sonnet, DeepSeek-v3, Qwen2.5-max를 포함한 모든 주요 LLM과의 아키텍처 독립적 통합으로 21.59배의 컨텍스트 압축과 19.15포인트의 평균 성능 향상 달성. (3) Qwen2.5-32B-Instruct와 함께 배포 시, QwenLong-CPRS는 Ruler-128K와 InfiniteBench에서 선도적인 독점 LLM을 각각 4.85포인트와 10.88포인트 앞서며 새로운 SOTA 성능을 확립했다.
모델 사전 학습 단계에서 계산(데이터 및 파라미터) 확장의 한계 비용이 지속적으로 크게 증가함에 따라, 테스트 시간 확장(TTS)은 추론 시 추가적인 계산을 할당함으로써 생성 모델의 성능을 향상시키는 유망한 방향으로 부상했습니다. TTS는 여러 언어 작업에서 상당한 성공을 거두었지만, 이미지 및 비디오 생성 모델(확산 기반 또는 흐름 기반 모델)의 테스트 시간 확장 행동에 대한 이해는 여전히 상당한 격차가 있습니다. 최근 연구들이 비전 작업을 위한 추론 시간 전략 탐색을 시작했지만, 이러한 접근법들은 작업 특정 도메인에 제한되거나 확장성이 낮거나, 샘플 다양성을 희생시키는 보상 과최적화에 빠지는 등의 중요한 한계를 가지고 있습니다. 본 논문에서는 추가적인 학습이나 모델 확장 없이도 확산 및 흐름 모델 모두에서 이미지 및 비디오 생성의 확장성을 효과적으로 향상시키는 새로운, 일반적이며 효율적인 TTS 방법인 Evolutionary Search(EvoSearch)를 제안합니다. EvoSearch는 확산 및 흐름 모델을 위한 테스트 시간 확장을 생물학적 진화의 원리를 활용하여 효율적으로 탐색하고 개선하는 진화 탐색 문제로 재구성합니다. 확률적 미분 방정식 노이즈 제거 프로세스에 맞춰 설계된 선택 및 변이 메커니즘을 통합함으로써, EvoSearch는 인구 다양성을 유지하면서 더 높은 품질의 후손을 반복적으로 생성합니다. 이미지 및 비디오 생성 작업을 위한 확산 및 흐름 아키텍처 전반에 걸친 광범위한 평가를 통해, 우리의 방법이 기존 접근법을 지속적으로 능가하고, 더 높은 다양성을 달성하며, 보이지 않는 평가 지표에 대한 강력한 일반화 능력을 보여줌을 입증합니다. 우리의 프로젝트는 https://tinnerhrhe.github.io/evosearch 웹사이트에서 확인할 수 있습니다.
가설 순위 지정은 자동화된 과학적 발견의 중요한 구성 요소로, 특히 실험실 실험이 비용이 많이 들고 처리량이 제한된 자연과학 분야에서 더욱 그러합니다. 기존 접근법은 실험 전 순위 지정에 초점을 맞추며, 대규모 언어 모델의 내부 추론에만 의존하고 실험 결과를 통합하지 않습니다. 우리는 실험 결과를 기반으로 후보 가설의 우선순위를 정하는 실험-가이드 순위 지정 작업을 소개합니다. 그러나 자연과학 분야에서 실제 실험을 반복적으로 수행하는 것은 비현실적이기 때문에 이러한 전략을 개발하는 것은 어려운 과제입니다. 이를 해결하기 위해, 우리는 세 가지 도메인 기반 가정에 기초한 시뮬레이터를 제안하며, 이 시뮬레이터는 알려진 실제 가설과의 유사성에 기반하여 노이즈가 추가된 가설 성능을 모델링합니다. 우리는 시뮬레이터를 검증하기 위해 실험적으로 보고된 결과가 포함된 124개의 화학 가설 데이터셋을 구축했습니다. 이 시뮬레이터를 기반으로, 우리는 공유된 기능적 특성에 따라 가설을 클러스터링하고 시뮬레이션된 실험 피드백에서 도출된 통찰을 바탕으로 후보 가설의 우선순위를 정하는 의사 실험-가이드 순위 지정 방법을 개발합니다. 실험 결과, 우리의 방법이 실험 전 기준선과 강력한 제거 실험을 능가하는 것으로 나타났습니다.
초기 노이즈 선택은 비디오 확산 모델의 품질과 프롬프트 정렬에 상당한 영향을 미치며, 동일한 프롬프트에 대해 다른 노이즈 시드를 사용하면 크게 다른 결과물이 생성될 수 있습니다. 최근의 방법들은 주파수 필터나 프레임 간 평활화와 같은 외부적으로 설계된 사전 지식에 의존하지만, 어떤 노이즈 시드가 본질적으로 더 나은지를 나타내는 내부 모델 신호를 종종 간과합니다. 이를 해결하기 위해, 우리는 주의 기반 불확실성을 정량화하여 고품질 노이즈 시드를 선택하는 모델 인식 프레임워크인 ANSE(Active Noise Selection for Generation)를 제안합니다. ANSE의 핵심은 BANSA(Bayesian Active Noise Selection via Attention)로, 이는 다중 확률적 주의 샘플 간의 엔트로피 불일치를 측정하여 모델의 신뢰도와 일관성을 추정하는 획득 함수입니다. 효율적인 추론 시간 배포를 위해, 우리는 단일 확산 단계와 주의 계층의 부분 집합을 사용하여 점수를 추정할 수 있는 BANSA의 베르누이 마스크 근사치를 도입했습니다. CogVideoX-2B와 5B에 대한 실험 결과, ANSE는 추론 시간이 각각 8%와 13%만 증가하면서도 비디오 품질과 시간적 일관성을 개선하여 비디오 확산에서 노이즈 선택에 대한 원칙적이고 일반화 가능한 접근 방식을 제공합니다. 프로젝트 페이지를 참조하세요: https://anse-project.github.io/anse-project/
대규모 추론 모델(LRMs)은 사고의 연쇄(Chain-of-Thought, CoT) 추론을 통해 복잡한 작업에서 뛰어난 성능을 발휘합니다. 그러나 이러한 모델들은 지나치게 깊이 생각하는 경향이 있어 불필요하게 긴 추론 과정을 생성하며, 이는 추론 비용을 크게 증가시킵니다. 이러한 문제를 해결하기 위해, 우리는 CoT 압축을 위한 새로운 접근법인 VeriThinker를 소개합니다. 기존의 방법들이 합성된 간결한 CoT 데이터를 사용하여 원래의 추론 작업에 대해 LRMs를 직접 미세 조정하는 것과 달리, 우리는 보조 검증 작업을 통해 모델을 혁신적으로 미세 조정합니다. LRMs가 CoT 해결책의 정확성을 정확히 검증하도록 훈련함으로써, LRMs는 본질적으로 후속 자기 반성 단계의 필요성에 대해 더욱 분별력 있게 되며, 이를 통해 지나친 사고를 효과적으로 억제합니다. 광범위한 실험을 통해 VeriThinker가 추론 과정의 길이를 상당히 줄이면서도 정확도를 유지하거나 약간 향상시킴을 검증했습니다. DeepSeek-R1-Distill-Qwen-7B에 적용했을 때, 우리의 접근법은 MATH500에서 추론 토큰을 3790에서 2125로 줄이면서 정확도를 0.8% (94.0%에서 94.8%로) 향상시켰으며, AIME25에서는 토큰이 14321에서 10287로 감소하면서 정확도가 2.1% (38.7%에서 40.8%로) 증가했습니다. 또한, 우리의 실험은 VeriThinker가 추측적 추론에도 제로샷 일반화될 수 있음을 보여줍니다. 코드는 https://github.com/czg1225/VeriThinker에서 확인할 수 있습니다.
시각적 장면을 이해하는 것은 인간 지능의 근본적인 요소입니다. 판별 모델(discriminative models)이 컴퓨터 비전을 크게 발전시켰지만, 이들은 종종 구성적 이해(compositional understanding)에 어려움을 겪습니다. 반면, 최근의 생성적 텍스트-이미지 확산 모델(generative text-to-image diffusion models)은 복잡한 장면을 합성하는 데 탁월한 능력을 보여주며, 이는 내재된 구성적 능력을 시사합니다. 이를 바탕으로, 확산 모델을 판별 작업에 재활용하기 위해 제로샷 확산 분류기(zero-shot diffusion classifiers)가 제안되었습니다. 이전 연구는 판별적 구성 시나리오에서 유망한 결과를 보여주었지만, 소수의 벤치마크와 모델이 성공하는 조건에 대한 비교적 얕은 분석으로 인해 이러한 결과는 아직 예비적인 수준에 머물러 있습니다. 이를 해결하기 위해, 우리는 다양한 구성 작업에서 확산 분류기의 판별 능력에 대한 포괄적인 연구를 제시합니다. 구체적으로, 우리의 연구는 세 가지 확산 모델(SD 1.5, 2.0, 그리고 처음으로 3-m)을 포함하며, 10개의 데이터셋과 30개 이상의 작업을 다룹니다. 더 나아가, 우리는 대상 데이터셋 도메인이 각각의 성능에 미치는 역할을 밝히고, 도메인 효과를 분리하기 위해 확산 모델 자체가 생성한 이미지로 구성된 새로운 진단 벤치마크인 Self-Bench를 소개합니다. 마지막으로, 우리는 타임스텝 가중치의 중요성을 탐구하고, 특히 SD3-m의 경우 도메인 격차와 타임스텝 민감도 사이의 관계를 발견합니다. 요약하자면, 확산 분류기는 구성성을 이해하지만, 조건이 적용됩니다! 코드와 데이터셋은 https://github.com/eugene6923/Diffusion-Classifiers-Compositionality에서 확인할 수 있습니다.
Signed Distance Function과 같은 볼륨 기반 표현을 사용하여 고해상도 3D 형태를 생성하는 것은 상당한 계산 및 메모리 문제를 야기합니다. 우리는 희소 볼륨 기반의 확장 가능한 3D 생성 프레임워크인 Direct3D S2를 소개하며, 이는 훈련 비용을 획기적으로 줄이면서도 우수한 출력 품질을 달성합니다. 우리의 핵심 혁신은 Spatial Sparse Attention(SSA) 메커니즘으로, 이는 희소 볼륨 데이터에서 Diffusion Transformer 계산의 효율성을 크게 향상시킵니다. SSA는 모델이 희소 볼륨 내에서 대규모 토큰 집합을 효과적으로 처리할 수 있게 하여 계산 오버헤드를 크게 줄이고, 순전파에서 3.9배, 역전파에서 9.6배의 속도 향상을 달성합니다. 또한, 우리의 프레임워크는 입력, 잠재, 출력 단계에서 일관된 희소 볼륨 형식을 유지하는 변이형 오토인코더를 포함합니다. 이전의 3D VAE에서 이질적 표현을 사용한 방법과 비교하여, 이러한 통합 설계는 훈련 효율성과 안정성을 크게 개선합니다. 우리의 모델은 공개된 데이터셋으로 훈련되었으며, 실험 결과 Direct3D S2는 생성 품질과 효율성에서 최신 기술을 능가할 뿐만 아니라, 256 해상도의 볼륨 표현에 일반적으로 최소 32개의 GPU가 필요한 작업을 8개의 GPU만으로 1024 해상도에서 훈련할 수 있게 하여, 기가스케일 3D 생성을 실용적이고 접근 가능하게 만듭니다. 프로젝트 페이지: https://nju3dv.github.io/projects/Direct3D-S2/.
오디오 대형 언어 모델(ALLM)의 급속한 발전과 확장된 응용 분야는 이들의 신뢰성에 대한 엄격한 이해를 요구합니다. 그러나 이러한 모델을 평가하는 체계적인 연구, 특히 오디오 양식에 고유한 위험에 관한 연구는 아직 크게 미개척 상태입니다. 기존 평가 프레임워크는 주로 텍스트 양식에 초점을 맞추거나 제한된 안전성 차원만을 다루어, 오디오 양식에 내재된 고유한 특성과 응용 시나리오를 충분히 고려하지 못하고 있습니다. 우리는 ALLM을 위해 특별히 설계된 첫 번째 다면적 신뢰성 평가 프레임워크 및 벤치마크인 AudioTrust를 소개합니다. AudioTrust는 공정성, 환각, 안전성, 프라이버시, 견고성, 인증이라는 여섯 가지 핵심 차원에 걸친 평가를 용이하게 합니다. 이러한 차원을 포괄적으로 평가하기 위해 AudioTrust는 18개의 독특한 실험 설정으로 구성되어 있습니다. 그 핵심은 4,420개 이상의 오디오/텍스트 샘플로 구성된 세심하게 구축된 데이터셋으로, 일상 대화, 긴급 전화, 음성 어시스턴트 상호작용 등 실제 시나리오에서 추출되어 ALLM의 다면적 신뢰성을 탐구하도록 설계되었습니다. 평가를 위해 벤치마크는 9개의 오디오 특화 평가 지표를 신중하게 설계하였으며, 우리는 모델 출력의 객관적이고 확장 가능한 점수화를 위해 대규모 자동화 파이프라인을 사용합니다. 실험 결과는 다양한 고위험 오디오 시나리오에 직면했을 때 현재 최첨단 오픈소스 및 클로즈드소스 ALLM의 신뢰성 한계와 제약을 드러내며, 향후 오디오 모델의 안전하고 신뢰할 수 있는 배치를 위한 귀중한 통찰을 제공합니다. 우리의 플랫폼과 벤치마크는 https://github.com/JusperLee/AudioTrust에서 이용 가능합니다.
대규모 언어 모델은 위치 편향(positional bias)을 보이는데, 이는 특정 문맥 위치의 정보를 체계적으로 무시하는 현상을 말합니다. 그러나 이러한 편향이 언어적 다양성과 어떻게 상호작용하는지는 아직 잘 이해되지 않고 있습니다. 본 연구는 유형론적으로 구별되는 다섯 가지 언어(영어, 러시아어, 독일어, 힌디어, 베트남어)를 대상으로 위치 편향이 모델의 불확실성, 구문, 그리고 프롬프팅과 어떻게 상호작용하는지를 조사한 비교 언어학적 연구를 제시합니다. 주요 연구 결과는 다음과 같습니다: (1) 위치 편향은 모델에 의해 결정되며, 언어별로 변이가 존재합니다. 예를 들어, Qwen2.5-7B는 후반 위치를 선호하여 초기 토큰 편향이라는 가정에 도전합니다. (2) 명시적인 위치 안내(예: 정확한 문맥은 X 위치에 있음)는 모든 언어에서 정확도를 감소시켜 프롬프트 엔지니어링 관행을 약화시킵니다. (3) 문맥을 위치 편향에 맞추면 엔트로피가 증가하지만, 최소 엔트로피가 정확도를 예측하지는 않습니다. (4) 또한, LLM이 힌디어와 같은 자유 어순 언어에서 지배적인 어순을 다르게 적용한다는 점을 추가로 발견했습니다.
검색 강화 생성(Retrieval-Augmented Generation, RAG) 시스템은 대규모 언어 모델(LLM)이 추론 과정에서 외부 지식에 접근할 수 있도록 지원합니다. 최근 발전을 통해 LLM은 강화 학습(RL)을 통해 검색 에이전트로 작동할 수 있게 되었으며, 이는 검색 엔진과의 다중 턴 상호작용을 통해 정보 획득을 개선합니다. 그러나 기존 접근 방식은 하류 작업의 유용성을 무시하는 검색 전용 지표(예: NDCG)를 사용하여 검색을 최적화하거나, 전체 LLM을 미세 조정하여 추론과 검색을 결합함으로써 검색을 생성과 얽히게 하고, 실제 검색 유용성과 고정 또는 독점 모델과의 호환성을 제한합니다. 본 연구에서는 검색기와 생성기를 분리하고, 검색기를 'Gain Beyond RAG' 보상(단순 RAG 대비 생성 정확도 개선)을 사용하여 훈련시키는 경량화된 모델-불가지론적 프레임워크인 s3를 제안합니다. s3는 단 2.4k개의 훈련 샘플만으로 70배 이상 많은 데이터로 훈련된 베이스라인을 능가하며, 6개의 일반 QA 벤치마크와 5개의 의료 QA 벤치마크에서 일관되게 더 강력한 하류 작업 성능을 제공합니다.
대규모 언어 모델(LLM)이 환각(hallucination)을 정확하게 탐지하도록 정렬하는 것은 환각 텍스트의 복잡한 특성으로 인해 여전히 중요한 과제로 남아 있습니다. 환각 샘플이 전통적인 부정 샘플보다 더 높은 기만적 품질을 보인다는 점을 인식하여, 우리는 이러한 신중하게 설계된 환각을 DPO 정렬 절차에서 부정 예제로 사용합니다. 우리의 방법은 커리큘럼 학습 전략을 통합하여, 독립적인 사실 확인 모델에서 확률 점수가 가장 크게 감소한 쉬운 샘플에서 점점 더 어려운 샘플로 점진적으로 훈련을 전환합니다. 이러한 구조화된 난이도 조정은 안정적이고 점진적인 학습을 보장합니다. 실험 평가 결과, 커리큘럼 DPO 접근법과 고품질 부정 샘플로 훈련된 HaluCheck 모델은 다양한 메트릭에서 모델 성능을 크게 향상시켰으며, MedHallu 및 HaluEval과 같은 어려운 벤치마크에서 최대 24%의 성능 향상을 달성했습니다. 또한, HaluCheck 모델은 제로샷 설정에서도 강건성을 보여주며, 다양한 벤치마크에서 더 큰 최첨단 모델을 크게 능가하는 성능을 보였습니다.
프론트엔드 엔지니어링은 엔지니어들이 디자인을 개념화하고, 이를 코드로 변환하며, 구현을 반복적으로 개선하는 복잡한 워크플로우를 포함합니다. 최근 벤치마크들은 주로 시각적 디자인을 코드로 변환하는 데 초점을 맞추고 있지만, 우리는 전체 프론트엔드 개발 파이프라인을 평가하기 위해 설계된 벤치마크인 FullFront를 소개합니다. FullFront는 프론트엔드 엔지니어링 파이프라인에 직접 매핑되는 세 가지 기본 작업을 평가합니다: 웹페이지 디자인(개념화 단계), 웹페이지 인지 QA(시각적 조직 및 요소 이해), 웹페이지 코드 생성(구현 단계). 기존 벤치마크들이 불필요한 코드가 포함된 스크랩된 웹사이트나 지나치게 단순화된 LLM 생성 HTML을 사용하는 것과 달리, FullFront는 실제 웹페이지를 깔끔하고 표준화된 HTML로 변환하면서도 다양한 시각적 디자인을 유지하고 저작권 문제를 피하기 위한 새로운 두 단계 프로세스를 사용합니다. 최첨단 MLLM에 대한 광범위한 테스트는 페이지 인지, 코드 생성(특히 이미지 처리 및 레이아웃), 상호작용 구현에서의 상당한 한계를 드러냅니다. 우리의 결과는 모델과 작업 간의 성능 차이를 정량적으로 보여주며, 현재 MLLM의 능력과 프론트엔드 엔지니어링에서의 인간 전문가 성능 간의 상당한 격차를 강조합니다. FullFront 벤치마크와 코드는 https://github.com/Mikivishy/FullFront에서 확인할 수 있습니다.
강화 학습(Reinforcement Learning, RL)은 추론 모델을 훈련시키는 효과적인 방법으로 부상했습니다. 그러나 기존의 RL 접근법은 일반적으로 외부 지식을 도입하지 않고 모델의 출력 분포를 보상 극대화 경로로 편향시키는 경향이 있습니다. 이는 탐색 능력을 제한하고 기본 모델에 비해 더 좁은 추론 능력 경계를 초래합니다. 이러한 한계를 해결하기 위해, 우리는 외부의 고수준 지침("사고 패턴")을 통합하여 RL을 보강하는 새로운 프레임워크인 TAPO(Thought-Augmented Policy Optimization)를 제안합니다. TAPO는 훈련 중에 구조화된 사고를 적응적으로 통합함으로써 모델 내부의 탐색과 외부 지침 활용 사이의 균형을 효과적으로 조정합니다. 광범위한 실험 결과, 우리의 접근법은 AIME에서 99%, AMC에서 41%, Minerva Math에서 17%로 GRPO를 크게 능가하는 것으로 나타났습니다. 특히, 단 500개의 이전 샘플에서 추상화된 이러한 고수준 사고 패턴은 다양한 작업과 모델에 걸쳐 효과적으로 일반화됩니다. 이는 TAPO가 여러 작업과 도메인에 걸쳐 더 넓은 적용 가능성을 가지고 있음을 강조합니다. 추가 분석 결과, 외부 지침을 도입하면 추론 행동의 우수한 설명 가능성과 향상된 출력 가독성을 갖춘 강력한 추론 모델이 생성되는 것으로 나타났습니다.
대규모 언어 모델(LLM)은 인상적인 능력을 보여주지만, 과거에 대한 추론을 미래 예측 및 가능성 있는 생성과 통합하는 데 어려움을 겪는 등 강력한 시간적 지능이 부족합니다. 한편, 기존 방법들은 일반적으로 과거 사건에 대한 질문 응답이나 기본적인 예측과 같은 고립된 시간적 기술을 목표로 하며, 특히 지식 한계를 넘는 사건이나 창의적인 통찰력을 요구하는 경우에 일반화 능력이 떨어집니다. 이러한 한계를 해결하기 위해, 우리는 중간 규모(30억 파라미터)의 LLM에 포괄적인 시간적 능력(이해, 예측, 창의적 생성)을 부여하는 첫 번째 프레임워크인 Time-R1을 소개합니다. 우리의 접근 방식은 새로운 3단계 개발 경로를 특징으로 하며, 처음 두 단계는 세심하게 설계된 동적 규칙 기반 보상 시스템에 의해 주도되는 강화 학습(RL) 커리큘럼으로 구성됩니다. 이 프레임워크는 (1) 역사적 데이터로부터 기본적인 시간적 이해와 논리적 사건-시간 매핑을 점진적으로 구축하고, (2) 지식 한계를 넘는 미래 사건 예측 능력을 개발하며, 마지막으로 (3) 미세 조정 없이도 창의적인 미래 시나리오 생성으로의 탁월한 일반화를 가능하게 합니다. 놀랍게도, 실험 결과 Time-R1은 고도로 도전적인 미래 사건 예측 및 창의적 시나리오 생성 벤치마크에서 최첨단 6710억 파라미터의 DeepSeek-R1을 포함해 200배 이상 큰 모델들을 능가하는 성능을 보여줍니다. 이 연구는 신중하게 설계된 점진적인 RL 미세 조전이 더 작고 효율적인 모델이 우수한 시간적 성능을 달성할 수 있게 한다는 강력한 증거를 제공하며, 진정한 시간 인식 AI를 위한 실용적이고 확장 가능한 길을 제시합니다. 추가 연구를 촉진하기 위해, 우리는 10년간의 뉴스 데이터에서 파생된 대규모 다중 작업 시간적 추론 데이터셋인 Time-Bench와 Time-R1 체크포인트 시리즈도 공개합니다.
대형 언어 모델(LLM)로 구동되는 음성 어시스턴트의 급속한 성장은 이러한 시스템을 훈련시키기 위한 음성 명령 데이터의 필요성을 부각시켰습니다. 음성 인식 데이터는 풍부하지만, 음성 명령 데이터는 상대적으로 부족한 상황이며, 이는 모델이 음성 명령을 이해하고 실행하도록 미세 조정하는 데 필수적입니다. 고품질의 합성 음성을 생성하려면 우수한 텍스트-투-스피치(TTS) 모델이 필요하지만, 이는 저자원 언어에서는 사용 가능하지 않을 수 있습니다. 우리의 새로운 접근 방식은 TTS의 필요성을 우회함으로써 이 문제를 해결합니다. 이를 위해 합성 의미 표현을 사전 훈련된 Whisper 인코더와 정렬시켜, LLM이 텍스트 명령에 대해 미세 조정되면서도 추론 과정에서 음성 명령을 이해할 수 있는 능력을 유지하도록 합니다. 이 간소화된 훈련 과정은 저자원 언어를 위한 음성 어시스턴트 구축에 있어 유망한 접근 방식입니다.
GPT-4o, Gemini, o3와 같은 모델들이 텍스트와 이미지 등 다양한 모달리티를 처리하고 생성할 수 있는 능력을 보여주며, 네이티브 멀티모달 모델과 오미모델의 급속한 발전은 지능의 진화에서 중요한 이정표를 나타냅니다. 이들의 멀티모달 출력 능력을 시각적 사고 과정(멀티모달 사고 연쇄, M-CoT)에서 체계적으로 평가하는 것은 매우 중요해졌습니다. 그러나 기존의 멀티모달 모델 평가 벤치마크는 주로 멀티모달 입력과 텍스트 전용 추론을 평가하는 데 초점을 맞추고 있으며, 멀티모달 출력을 통한 추론의 중요성을 간과하고 있습니다. 본 논문에서는 모델의 시각적 추론 능력을 평가하기 위해 RBench-V라는 벤치마크를 제안합니다. RBench-V를 구성하기 위해 수학, 물리학, 계수, 게임 등 다양한 분야를 아우르는 803개의 질문을 신중하게 선별했습니다. 기존 벤치마크와 달리 RBench-V는 특정 입력 모달리티를 지정하기보다는 새로운 이미지 생성 및 보조선 구성과 같은 이미지 조작이 필요한 멀티모달 출력 중심의 문제를 제시합니다. 우리는 o3, Gemini 2.5 Pro, Qwen2.5-VL 등 다양한 오픈소스 및 클로즈드소스 모델을 RBench-V에서 평가했습니다. 가장 성능이 뛰어난 o3 모델조차 RBench-V에서 25.8%의 정확도를 보였으며, 이는 인간의 점수인 82.3%에 훨씬 못 미치는 수준으로, 현재의 모델들이 멀티모달 추론을 활용하는 데 어려움을 겪고 있음을 보여줍니다. 데이터와 코드는 https://evalmodels.github.io/rbenchv에서 확인할 수 있습니다.
야간에 여러 가지 악천후 조건으로 영향을 받은 이미지를 복원하는 것은 실용적이면서도 충분히 탐구되지 않은 연구 문제입니다. 왜냐하면 실제 세계에서는 다양한 기상 조건이 야간의 다양한 조명 효과와 함께 공존하는 경우가 많기 때문입니다. 본 논문은 먼저 다양한 유형의 기상 열화와 플레어 효과가 얽혀 있는 복잡한 다중 기상 야간 이미지 복원 작업을 탐구합니다. 연구를 지원하기 위해, 우리는 대규모 고품질 야간 이미지로 구성된 AllWeatherNight 데이터셋을 제공하며, 이 데이터셋은 우리가 도입한 조명 인식 열화 생성 방법을 사용하여 다양한 조합의 열화를 합성한 것입니다. 또한, 우리는 ClearNight라는 통합 야간 이미지 복원 프레임워크를 제시하며, 이 프레임워크는 복잡한 열화를 한 번에 효과적으로 제거합니다. 구체적으로, ClearNight는 Retinex 기반의 이중 사전 정보를 추출하고 네트워크가 각각 불균일한 조명 영역과 본질적인 텍스처 내용에 집중하도록 명시적으로 안내함으로써 야간 시나리오에서의 복원 효과를 향상시킵니다. 여러 기상 열화의 공통적이고 독특한 특성을 더 잘 표현하기 위해, 우리는 기상 인식 동적 특이성-공통성 협업 방법을 도입하여 기상 열화를 식별하고 특정 기상 유형과 관련된 최적의 후보 단위를 적응적으로 선택합니다. 우리의 ClearNight는 합성 및 실제 이미지 모두에서 최첨단 성능을 달성합니다. 포괄적인 절제 실험을 통해 AllWeatherNight 데이터셋의 필요성과 ClearNight의 효과를 검증합니다. 프로젝트 페이지: https://henlyta.github.io/ClearNight/mainpage.html
제공된 맥락에서 대형 언어 모델(LLM)이 신뢰할 수 있도록 학습시키는 것은 신뢰할 수 있는 정보 탐색 시스템을 구축하는 데 있어 매우 중요합니다. 따라서 우리는 인간의 주석 없이도 짧은 형식과 긴 형식의 생성 작업에서 LLM의 신뢰성을 향상시키기 위한 체계적인 프레임워크인 CANOE를 제안합니다. 구체적으로, 우리는 먼저 인간의 주석 없이도 고품질이고 쉽게 검증 가능한 학습 데이터를 구축하기 위해 네 가지 다양한 작업으로 짧은 형식의 질문-응답(QA) 데이터를 합성합니다. 또한, 합성된 짧은 형식 QA 데이터에서 파생된 세 가지 맞춤형 규칙 기반 보상을 포함하는 규칙 기반 강화 학습 방법인 Dual-GRPO를 제안하며, 이를 통해 짧은 형식과 긴 형식 응답 생성을 동시에 최적화합니다. 특히, Dual-GRPO는 보상 모델을 학습하기 위해 선호 데이터를 수동으로 레이블링할 필요를 없애고, 합성된 짧은 형식 QA 데이터에만 의존할 때 짧은 형식 생성이 과도하게 최적화되는 것을 방지합니다. 실험 결과는 CANOE가 11가지 다양한 하위 작업에서 LLM의 신뢰성을 크게 향상시키며, 가장 발전된 LLM인 GPT-4o와 OpenAI o1을 능가하는 성능을 보여줍니다.
강화 학습(Reinforcement Learning, RL)은 기초 모델을 특화된 작업에 적응시키는 강력한 방법이지만, 대규모 인간 주석 데이터에 대한 의존성으로 인해 광범위한 채택이 제한됩니다. 우리는 '합성 데이터 강화 학습(Synthetic Data RL)'이라는 간단하면서도 일반적인 프레임워크를 소개합니다. 이 방법은 작업 정의에서 생성된 합성 데이터만을 사용하여 모델을 강화 학습으로 미세 조정합니다. 우리의 방법은 먼저 작업 정의와 검색된 문서에서 질문과 답변 쌍을 생성한 후, 모델의 해결 가능성을 기반으로 질문의 난이도를 조정하고, 샘플 간 모델의 평균 통과율을 사용하여 강화 학습 훈련을 위한 질문을 선택합니다. Qwen-2.5-7B 모델에서 우리의 방법은 GSM8K에서 기본 모델 대비 29.2%의 절대적 개선을 달성했으며(+2.9pp vs. 지시 미세 조정, +6.6pp vs. Self-Instruct), MATH에서는 8.7%, GPQA에서는 13.1%(+7.0pp vs. SynthLLM), MedQA에서는 8.9%, CQA(법률)에서는 17.7%, CFA(금융)에서는 13.7%의 성능 향상을 보였습니다. 이는 동일한 데이터 예산 하에서 지도 학습 미세 조정을 능가하며, 전체 인간 데이터를 사용한 강화 학습과 거의 비슷한 성능을 보입니다(예: GSM8K에서 +17.2pp). 100개의 인간 시연 데이터를 추가해도 GSM8K 성능은 단 0.4pp만 향상되어 추가적인 가치가 제한적임을 보여줍니다. 인간 데이터 주석을 줄임으로써, 합성 데이터 강화 학습은 확장 가능하고 효율적인 강화 학습 기반 모델 적응을 가능하게 합니다. 코드와 데모는 https://github.com/gydpku/Data_Synthesis_RL/에서 확인할 수 있습니다.
Trinity-RFT는 대규모 언어 모델의 강화 미세 조정(Reinforcement Fine-Tuning, RFT)을 위해 설계된 범용적이고 유연하며 확장 가능한 프레임워크입니다. 이 프레임워크는 분리된 설계로 구성되어 있으며, (1) 동기/비동기, 온-정책/오프-정책, 온라인/오프라인 모드의 RFT를 통합하고 일반화하는 RFT 코어, (2) 에이전트-환경 상호작용을 위한 고효율 및 강건성을 갖춘 원활한 통합, (3) RFT에 최적화된 체계적인 데이터 파이프라인을 포함합니다. Trinity-RFT는 다양한 응용 시나리오에 쉽게 적용할 수 있으며, 고급 강화 학습 패러다임을 탐구하기 위한 통합 플랫폼 역할을 합니다. 이 기술 보고서는 Trinity-RFT의 비전, 기능, 설계 및 구현을 개괄하며, 제안된 프레임워크의 유용성과 사용자 친화성을 입증하는 다양한 예시를 제공합니다.
우리는 로봇 시스템에서 명령어 기반의 고정밀 표면 스캐닝을 위해 설계된 새로운 데이터셋인 ScanBot을 소개한다. 기존의 로봇 학습 데이터셋이 파지, 탐색, 대화 등과 같은 거친 작업에 초점을 맞추는 반면, ScanBot은 산업용 레이저 스캐닝의 고정밀 요구사항을 목표로 하며, 이는 밀리미터 단위의 경로 연속성과 매개변수 안정성이 중요한 분야이다. 이 데이터셋은 로봇이 실행한 레이저 스캐닝 궤적을 포함하며, 12가지 다양한 객체와 6가지 작업 유형(전체 표면 스캔, 기하학적 초점 영역, 공간적으로 참조된 부품, 기능적으로 관련된 구조, 결함 검사, 비교 분석)을 다룬다. 각 스캔은 자연어 명령어로 안내되며, 동기화된 RGB, 깊이, 레이저 프로파일과 로봇 포즈 및 관절 상태가 함께 제공된다. 최근의 진전에도 불구하고, 기존의 시각-언어 행동(VLA) 모델들은 세분화된 명령어와 실제 세계의 정밀도 요구사항 하에서 안정적인 스캐닝 궤적을 생성하는 데 여전히 실패한다. 이러한 한계를 조사하기 위해, 우리는 다중모달 대형 언어 모델(MLLM)을 전체 인지-계획-실행 루프에 걸쳐 벤치마킹하였으며, 현실적인 제약 하에서 명령어 수행에 지속적인 도전 과제가 있음을 밝혀냈다.
비전-언어 모델(VLMs)의 급속한 배포는 안전 위험을 증폭시키고 있지만, 대부분의 평가는 인공적인 이미지에 의존하고 있습니다. 본 연구는 다음과 같은 질문을 던집니다: 일반 사용자들이 공유하는 밈 이미지를 마주했을 때, 현재의 VLMs는 얼마나 안전한가? 이 질문을 탐구하기 위해, 우리는 실제 밈 이미지를 유해 및 무해한 지시문과 짝지은 50,430개의 인스턴스로 구성된 MemeSafetyBench 벤치마크를 소개합니다. 포괄적인 안전 분류 체계와 LLM 기반 지시문 생성을 활용하여, 우리는 단일 및 다중 턴 상호작용에서 여러 VLMs를 평가합니다. 우리는 실제 밈이 유해한 출력에 미치는 영향, 대화적 맥락의 완화 효과, 그리고 모델 규모와 안전 지표 간의 관계를 조사합니다. 우리의 연구 결과는 VLMs가 합성 또는 타이포그래피 이미지보다 밈 기반 유해 프롬프트에 더 취약함을 보여줍니다. 밈은 텍스트 전용 입력에 비해 유해 응답을 크게 증가시키고 거부율을 감소시킵니다. 다중 턴 상호작용이 부분적인 완화를 제공하지만, 높은 취약성은 지속됩니다. 이러한 결과는 생태학적으로 타당한 평가와 더 강력한 안전 메커니즘의 필요성을 강조합니다.
텍스트-이미지(T2I) 생성 분야의 최근 발전에도 불구하고, 기존 모델들은 짧고 불충분하게 명시된 프롬프트에서 사용자의 의도를 충실히 반영하는 데 어려움을 겪습니다. 선행 연구에서는 대형 언어 모델(LLM)을 사용해 프롬프트를 개선하려는 시도가 있었지만, 이러한 방법들은 시각적 의미론과 현실 세계의 구성을 충분히 반영하지 못해 스타일리시하거나 비현실적인 콘텐츠를 생성하는 경우가 많았습니다. 언어 모델의 추론 기술 최근 발전에 영감을 받아, 우리는 강화 학습을 통해 프롬프트 개선 과정에 명시적 추론을 도입한 새로운 리프롬프팅 프레임워크인 RePrompt를 제안합니다. 수작업 규칙이나 스타일리시한 재작성에 의존하는 대신, 우리의 방법은 언어 모델을 훈련시켜 이미지 수준의 결과를 최적화함으로써 구조화되고 자기 반영적인 프롬프트를 생성하도록 합니다. 맞춤형 보상 모델은 생성된 이미지를 인간의 선호도, 의미론적 정렬, 시각적 구성 측면에서 평가하여 프롬프트 생성을 개선하기 위한 간접적인 지도를 제공합니다. 우리의 접근 방식은 인간 주석 데이터 없이도 종단간(end-to-end) 훈련을 가능하게 합니다. GenEval과 T2I-Compbench에서의 실험 결과, RePrompt는 다양한 T2I 백본에서 공간 레이아웃 충실도와 구성적 일반화를 크게 향상시키며 새로운 최첨단 결과를 달성함을 보여줍니다.
제어 가능한 비디오 생성(CVG) 기술은 빠르게 발전해 왔지만, 현재의 시스템들은 두 명 이상의 행위자가 움직이고 상호작용하며 위치를 교환해야 하는 상황에서 노이즈가 있는 제어 신호 하에서 제대로 작동하지 못합니다. 우리는 이러한 격차를 해결하기 위해 DanceTogether를 제안합니다. 이는 단일 참조 이미지와 독립적인 포즈-마스크 스트림을 통해 길고 사실적인 비디오를 생성하면서도 모든 정체성을 엄격하게 보존하는 최초의 종단 간(end-to-end) 디퓨전 프레임워크입니다. 새로운 MaskPoseAdapter는 강력한 추적 마스크와 의미적으로 풍부하지만 노이즈가 있는 포즈 히트맵을 융합하여 "누가"와 "어떻게"를 모든 디노이징 단계에서 결합함으로써, 프레임 단위 파이프라인에서 발생하는 정체성 드리프트와 외관 유출 문제를 제거합니다. 대규모로 학습하고 평가하기 위해, 우리는 (i) 26시간 분량의 듀얼 스케이터 영상과 7,000개 이상의 고유 ID를 포함한 PairFS-4K, (ii) 신속한 크로스 도메인 전이를 위한 1시간 분량의 휴머노이드 로봇 상호작용 데이터셋인 HumanRob-300, 그리고 (iii) 댄스, 복싱, 레슬링, 요가, 피겨 스케이팅을 포함한 DanceTogEval-100 테스트 슈트를 중심으로 한 세 가지 트랙의 TogetherVideoBench 벤치마크를 소개합니다. TogetherVideoBench에서 DanceTogether는 기존 기술들을 상당한 차이로 능가했습니다. 또한, 1시간의 미세 조정만으로도 설득력 있는 인간-로봇 비디오를 생성할 수 있음을 보여주며, 이는 구현된 AI와 HRI(Human-Robot Interaction) 작업에 대한 광범위한 일반화를 강조합니다. 광범위한 어블레이션 실험은 지속적인 정체성-행동 결합이 이러한 성과에 중요함을 확인합니다. 우리의 모델, 데이터셋, 벤치마크는 CVG를 단일 주체의 안무에서 구성적으로 제어 가능한 다중 행위자 상호작용으로 끌어올려 디지털 제작, 시뮬레이션, 구현된 지능을 위한 새로운 길을 열었습니다. 우리의 비디오 데모와 코드는 https://DanceTog.github.io/에서 확인할 수 있습니다.
우리는 사전 학습된 Vision-Language-Action (VLA) 모델을 희소한 이진 성공 보상만을 사용하여 미세 조정하는 간단하고 확장 가능한 강화 학습 기반의 상호작용적 사후 학습 패러다임인 RIPT-VLA를 소개합니다. 기존의 VLA 학습 파이프라인은 오프라인 전문가 시연 데이터와 지도 학습 기반 모방에 크게 의존하여, 데이터가 부족한 상황에서 새로운 작업과 환경에 적응하는 능력이 제한됩니다. RIPT-VLA는 동적 롤아웃 샘플링과 leave-one-out 이점 추정을 기반으로 한 안정적인 정책 최적화 알고리즘을 통해 상호작용적 사후 학습을 가능하게 함으로써 이를 해결합니다. RIPT-VLA는 다음과 같은 특징을 가집니다. 첫째, 다양한 VLA 모델에 적용 가능하며, 경량화된 QueST 모델의 성능을 21.2% 향상시키고, 7B OpenVLA-OFT 모델을 전례 없는 97.5%의 성공률로 끌어올립니다. 둘째, 계산 효율적이고 데이터 효율적입니다: 단 하나의 시연만으로도 RIPT-VLA는 작동 불가능했던 SFT 모델(4%)을 15번의 반복 내에 97%의 성공률로 성공시킬 수 있습니다. 더 나아가, RIPT-VLA에 의해 학습된 정책이 다양한 작업과 시나리오에 걸쳐 일반화되며 초기 상태 문맥에 강건함을 보여줍니다. 이러한 결과는 RIPT-VLA가 최소한의 감독을 통해 VLA 모델을 사후 학습하는 실용적이고 효과적인 패러다임임을 강조합니다.
대규모 언어 모델은 일반적으로 도메인 특화 데이터에 대한 지도 미세 조정을 통해 다운스트림 작업에 적응됩니다. 표준 미세 조정은 생성 손실을 최소화하여 모델 파라미터를 최적화하는 데 초점을 맞추지만, 우리는 인간 학습자가 과거 실수를 반영하여 미래 성능을 개선하는 방식과 유사하게, 모델 자체의 학습 신호를 유지하고 활용하는 더 깊은 단계를 거칩니다. 먼저, 미세 조정 과정에서 모델의 학습 행동과 반복되는 오류를 체계적으로 추적하기 위해 '실수 로그(Mistake Log)' 개념을 도입합니다. 원래의 트랜스포머 기반 모델을 '파일럿(Pilot)'으로 간주하고, 이에 상응하여 '코파일럿(Copilot)' 모델을 설계하여 파일럿의 추론 성능을 로짓 정제를 통해 개선합니다. 우리는 이 전체 파일럿-코파일럿 프레임워크를 '트랜스포머 코파일럿(Transformer Copilot)'으로 명명하며, 이는 (i) 새로운 코파일럿 모델 설계, (ii) 코파일럿이 파일럿과 함께 진화하는 실수 로그로부터 지속적으로 학습하는 공동 훈련 패러다임, 그리고 (iii) 코파일럿이 파일럿의 로짓을 정제하여 향상된 생성을 가능하게 하는 융합 추론 패러다임을 도입합니다. 우리는 이 새로운 학습 프레임워크에 대한 이론적 및 실증적 분석을 제공합니다. 상식, 산술, 추천 작업을 아우르는 12개의 벤치마크에서의 실험 결과, 트랜스포머 코파일럿은 최대 34.5%의 성능 향상을 일관되게 보여주며, 파일럿 모델에 미미한 계산 오버헤드만을 추가하면서도 강력한 확장성과 전이성을 나타냅니다.
최근 LLM 에이전트의 발전은 ReAct와 같은 추론 백본을 기반으로 이루어졌으며, 이는 복잡한 환경에서 사고와 행동을 교차적으로 수행합니다. 그러나 ReAct는 종종 근거가 없거나 일관성 없는 추론 단계를 생성하여 에이전트의 실제 상태와 목표 간의 불일치를 초래합니다. 우리의 분석에 따르면, 이는 ReAct가 일관된 내부 신념과 목표 정렬을 유지하지 못해 오류와 환각이 누적되기 때문입니다. 이를 해결하기 위해, 우리는 ReflAct라는 새로운 백본을 소개합니다. ReflAct는 단순히 다음 행동을 계획하는 것에서 벗어나 에이전트의 상태를 목표와 지속적으로 비교하며 반영하는 방식으로 추론을 전환합니다. 명시적으로 상태에 기반한 결정을 내리고 지속적인 목표 정렬을 강제함으로써, ReflAct는 전략적 신뢰성을 크게 향상시킵니다. 이 설계는 실질적인 실험적 성과를 제공합니다: ReflAct는 ReAct를 평균 27.7% 능가하며, ALFWorld에서 93.3%의 성공률을 달성합니다. 특히, ReflAct는 추가 개선 모듈(예: Reflexion, WKM)이 적용된 ReAct보다도 우수한 성능을 보여주며, 핵심 추론 백본을 강화하는 것이 에이전트 성능의 신뢰성을 높이는 데 핵심임을 입증합니다.
정책 경사 알고리즘은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 성공적으로 적용되어 왔습니다. 정책 경사 알고리즘에서 훈련 안정화를 위해 Kullback-Leibler(KL) 정규화가 널리 사용되지만, 다양한 KL 발산 공식이 어떻게 추정되고 온라인 강화 학습(RL)을 위한 대리 손실 함수에 통합될 수 있는지에 대한 체계적인 탐구는 미묘하고 체계적으로 탐구 가능한 설계 공간을 제시합니다. 본 논문에서는 온라인 RL 설정에서 KL 정규화된 정책 경사 방법을 도출하고 분석하기 위한 체계적인 프레임워크인 정규화된 정책 경사(RPG)를 제안합니다. 우리는 정규화 및 비정규화된 정책 분포를 모두 고려하여 순방향 및 역방향 KL 발산으로 정규화된 목적 함수에 대한 정책 경사 및 해당 대리 손실 함수를 도출합니다. 또한, 다양한 알고리즘 요구 사항을 수용하기 위해 완전히 미분 가능한 손실 함수와 REINFORCE 스타일의 경사 추정기를 위한 도출을 제시합니다. 우리는 이러한 방법을 사용하여 LLM 추론을 위한 RL에 대한 광범위한 실험을 수행하고, GRPO, REINFORCE++, DAPO와 같은 강력한 베이스라인과 비교하여 훈련 안정성과 성능 측면에서 개선되거나 경쟁력 있는 결과를 보여줍니다. 코드는 https://github.com/complex-reasoning/RPG에서 확인할 수 있습니다.
본 논문에서는 장문맥 추론 트레이스에 대한 가치 모델 훈련을 위한 간단하고 효율적인 방법을 제안합니다. 기존의 프로세스 보상 모델(PRMs)과 비교하여, 우리의 방법은 장문맥 추론 모델에 대해 정의하기 어려운 세부적인 "단계" 개념을 요구하지 않습니다. 250만 개의 추론 트레이스 데이터셋을 수집하여 15억 토큰 수준의 가치 모델을 훈련시키고, 이를 DeepSeek 모델에 적용하여 테스트 시간 계산 확장 시 성능을 개선했습니다. 블록 단위의 가치 기반 탐색(VGS)과 최종 가중 다수결 투표를 결합하면, 다수결 투표나 best-of-n과 같은 표준 방법보다 더 나은 테스트 시간 확장성을 달성할 수 있음을 발견했습니다. 64개의 생성 예산으로 추론할 때, DeepSeek-R1-Distill-1.5B 모델을 사용한 VGS는 네 가지 수학 경시대회 벤치마크(AIME 2024 & 2025, HMMT Feb 2024 & 2025)에서 평균 45.7%의 정확도를 달성하며, o3-mini-medium과 동등한 성능을 보였습니다. 또한, VGS는 동일한 성능을 달성하기 위해 필요한 추론 FLOPs를 다수결 투표에 비해 크게 줄였습니다. 우리의 데이터셋, 모델 및 코드베이스는 오픈소스로 공개되었습니다.
본 논문은 흥미로운 발견을 제시합니다: 텍스트 토큰에 대해 자동회귀적 대형 언어 모델(LLM)을 학습시킬 때, 이 텍스트 모델은 내부적으로 이미지와 오디오를 이해하는 능력을 자연스럽게 개발하며, 단순히 읽기만으로도 보고 듣는 능력을 갖추게 된다는 것입니다. 일반적인 오디오 및 시각적 LLM 모델들은 이미지와 오디오 임베딩을 조건으로 하여 텍스트 출력을 제공하기 위해 텍스트 LLM 모델을 미세 조정합니다. 반면, 우리의 아키텍처는 이미지 패치, 오디오 파형 또는 토큰을 입력으로 받아들입니다. 이는 분류 파이프라인의 전형적인 임베딩이나 카테고리 레이블을 제공합니다. 우리는 텍스트 가중치가 FSD-50K 및 GTZAN 데이터셋에서 오디오 분류를 지원하는 데 있어 일반성을 가짐을 보여줍니다. 더 나아가, CIFAR-10 및 Fashion-MNIST에서의 이미지 분류와 이미지 패치에 대한 분류에서도 이러한 작동을 보여줍니다. 이는 텍스트 LLM이 강력한 내부 회로를 학습하며, 이를 다양한 응용 프로그램에 필요한 연결을 활성화함으로써 활용할 수 있다는 개념을 강화합니다. 이는 매번 모델을 처음부터 학습시킬 필요 없이 기존의 학습된 모델을 활용할 수 있음을 시사합니다.
잔차 연결(Residual connections)은 심층 신경망에서 핵심적인 역할을 하며, 기울기 소실 문제를 완화함으로써 더 깊은 네트워크 구성을 가능하게 합니다. 그러나 표준 잔차 업데이트에서는 모듈의 출력이 입력 스트림에 직접 더해집니다. 이는 기존 스트림 방향을 주로 강화하거나 조절하는 업데이트로 이어질 수 있으며, 결과적으로 모듈이 완전히 새로운 특징을 학습할 수 있는 잠재력을 충분히 활용하지 못할 가능성이 있습니다. 본 연구에서는 직교 잔차 업데이트(Orthogonal Residual Update)를 제안합니다. 이 방법에서는 모듈의 출력을 입력 스트림에 대해 분해하고, 이 스트림에 직교하는 성분만을 더합니다. 이러한 설계는 모듈이 주로 새로운 표현 방향을 제공하도록 유도하여 더 풍부한 특징 학습을 촉진하고, 동시에 더 효율적인 학습을 가능하게 합니다. 우리는 이 직교 업데이트 전략이 다양한 아키텍처(ResNetV2, Vision Transformers)와 데이터셋(CIFARs, TinyImageNet, ImageNet-1k)에서 일반화 정확도와 학습 안정성을 개선함을 입증했습니다. 예를 들어, ViT-B 모델의 경우 ImageNet-1k에서 +4.3%p의 상위 1위 정확도 향상을 달성했습니다.
전문가 혼합(Mixture-of-Experts, MoE)은 추론 과정에서 희소하게 활성화되는 전문가들을 통해 대규모 언어 모델(LLMs)의 효율적인 확장을 가능하게 합니다. 메모리가 제한된 장치에서 대형 MoE 모델을 효과적으로 배포하기 위해, 많은 시스템은 *전문가 오프로딩*을 도입하여 일부 전문가를 고속 메모리에 캐싱하고 나머지는 저속 메모리에 남겨 CPU에서 실행하거나 필요 시 로드합니다. 일부 연구에서는 연속적인 토큰이 유사한 전문가를 활성화하는 **로컬 라우팅 일관성**의 지역성을 활용했지만, 이러한 일관성의 정도는 모델에 따라 다양하며 아직 충분히 연구되지 않았습니다. 본 논문에서는 MoE 모델의 로컬 라우팅 일관성을 측정하기 위해 두 가지 지표를 제안합니다: (1) **세그먼트 라우팅 최적 성능(SRP)**, 이는 고정된 전문가 그룹이 토큰 세그먼트의 요구를 얼마나 잘 충족시키는지 평가하며, (2) **세그먼트 캐시 최적 적중률(SCH)**, 이는 주어진 캐시 크기 제한 하에서 최적의 세그먼트 수준 캐시 적중률을 측정합니다. 다양한 크기와 아키텍처를 가진 20개의 MoE LLM을 분석한 결과, 모든 레이어에 MoE를 적용하고 공유 전문가를 사용하지 않는 모델이 가장 높은 로컬 라우팅 일관성을 보였습니다. 또한, 도메인 특화 전문가가 어휘 특화 전문가보다 라우팅 일관성에 더 크게 기여하며, 대부분의 모델이 활성 전문가 수의 약 2배 크기의 캐시로 캐시 효과와 효율성 사이의 균형을 맞출 수 있음을 보였습니다. 이러한 발견은 추론 속도를 저하시키지 않으면서 메모리 효율적인 MoE 설계와 배포를 위한 길을 열어줍니다. 실험을 재현하기 위한 코드는 https://github.com/ljcleo/moe-lrc 에 공개하였습니다.
최근 DeepSeek R1-Zero와 같은 발전은 인센티브 훈련의 효과를 보여주었는데, 이는 강화 학습 패러다임으로 언어 모델의 출력 중 최종 답변 부분만을 기반으로 보상을 계산하여 중간 추론 단계의 생성을 촉진합니다. 그러나 이러한 방법은 근본적으로 외부 검증기에 의존하므로, 수학 및 코딩과 같이 이러한 검증기를 쉽게 사용할 수 있는 영역에만 적용 가능하다는 한계가 있습니다. 보상 모델이 검증기 역할을 할 수는 있지만, 고품질의 주석 데이터가 필요하고 훈련 비용이 많이 듭니다. 본 연구에서는 NOVER, 즉 NO-VERifier 강화 학습을 제안합니다. 이는 외부 검증기가 필요 없이 표준 지도 미세 조정 데이터만을 요구하는 일반적인 강화 학습 프레임워크입니다. NOVER는 다양한 텍스트-텍스트 작업에서 인센티브 훈련을 가능하게 하며, DeepSeek R1 671B와 같은 대규모 추론 모델에서 추출된 동일한 크기의 모델보다 7.7% 더 우수한 성능을 보입니다. 또한, NOVER의 유연성은 역 인센티브 훈련과 같은 대규모 언어 모델 최적화의 새로운 가능성을 열어줍니다.
대규모 언어 모델(LLMs)이 기업 및 정부와 같은 민감한 분야에 점점 더 많이 배포됨에 따라, 이러한 모델들이 문맥 내에서 사용자 정의 보안 정책을 준수하도록 보장하는 것이 중요해졌습니다. 특히 정보 비공개와 관련하여 이러한 보장은 매우 중요합니다. 기존의 LLM 연구는 일반적인 안전성과 사회적으로 민감한 데이터에 초점을 맞추었지만, 공격에 대한 문맥적 보안 보존을 평가하는 대규모 벤치마크는 여전히 부족한 상태입니다. 이를 해결하기 위해, 우리는 질문 응답에서 LLM의 문맥적 비공개 정책 준수를 평가하는 새로운 대규모 벤치마크 데이터셋인 CoPriva를 소개합니다. 현실적인 문맥에서 도출된 이 데이터셋은 명시적인 정책과 금지된 정보를 찾는 직접적이고 도전적인 간접 공격으로 설계된 쿼리를 포함합니다. 우리는 이 벤치마크에서 10개의 LLM을 평가하고, 많은 모델이 사용자 정의 정책을 위반하고 민감한 정보를 유출하는 중요한 취약점을 발견했습니다. 이러한 실패는 특히 간접 공격에 대해 심각하며, 민감한 애플리케이션을 위한 현재 LLM 안전 정렬의 중요한 격차를 강조합니다. 우리의 분석은 모델이 쿼리에 대한 정답을 식별할 수는 있지만, 생성 과정에서 정책 제약을 통합하는 데 어려움을 겪는다는 것을 보여줍니다. 반면, 명시적으로 요청받을 경우 출력을 수정하는 부분적인 능력을 보입니다. 우리의 연구 결과는 문맥적 보안을 보장하기 위한 더 강력한 방법의 시급한 필요성을 강조합니다.
대규모 추론 모델(Large Reasoning Models, LRMs)은 다단계 추론과 적절한 단계에서 검색 엔진을 호출하는 데 있어 뛰어난 능력을 보여주고 있습니다. 그러나 기존의 검색 강화 추론 접근법은 별도의 검색 모델에 의존함으로써, LRM의 역할을 검색 시점과 쿼리 방법을 결정하는 데로 제한하고 있습니다. 이러한 분리는 하드웨어 및 운영 비용을 증가시킬 뿐만 아니라, 검색 과정에서 발생하는 표현 병목 현상(representation bottleneck)으로 인해 오류를 유발합니다. 표현 병목 현상은 검색기의 임베딩 공간이 생성기의 요구를 충분히 반영하지 못하는 현상을 말합니다. 이를 해결하기 위해, 우리는 시퀀스-투-시퀀스 매칭에서 벗어나 코퍼스 내에서 답변을 포함하는 경로를 찾는 관점으로 전환하고, FREESON(Retriever-FREE Retrieval-Augmented ReaSONing)이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 LRM이 생성기와 검색기 역할을 동시에 수행함으로써 관련 지식을 스스로 검색할 수 있도록 합니다. 이를 위해, 우리는 검색 작업에 특화된 MCTS(Monte Carlo Tree Search) 알고리즘의 변형인 CT-MCTS(Corpus-Traversing Monte Carlo Tree Search)를 도입했습니다. 이 알고리즘에서 LRM은 코퍼스를 탐색하며 답변을 포함하는 영역으로 이동합니다. 단일 홉(single-hop) 및 다중 홉(multi-hop) 질문을 포함한 5개의 오픈 도메인 QA 벤치마크에서의 실험 결과, FREESON은 별도의 검색기를 사용하는 4개의 다단계 추론 모델 대비 EM(Exact Match) 및 F1 점수에서 평균 14.4%의 향상을 보였으며, 가장 강력한 베이스라인과 비교했을 때도 PopQA와 2WikiMultihopQA에서 각각 3%와 2%의 성능 향상을 달성했습니다.
다중 홉 질의응답을 위한 반복적 RAG는 긴 문맥과 관련 없는 정보의 누적으로 인해 어려움에 직면합니다. 이는 모델이 검색된 내용을 처리하고 추론하는 능력을 저해하며 성능을 제한합니다. 최근 방법들은 검색된 정보를 압축하는 데 초점을 맞추고 있지만, 이들은 단일 라운드 RAG로 제한되거나, 파인튜닝이 필요하거나, 반복적 RAG에서 확장성이 부족합니다. 이러한 문제를 해결하기 위해, 우리는 각 단계에서 검색된 문서로부터 간결하고 관련성 높은 노트를 생성함으로써 잡음을 줄이고 필수적인 정보만을 유지하는 '노트 작성(Notes Writing)' 방법을 제안합니다. 이는 대규모 언어 모델(LLM)의 효과적인 문맥 길이를 간접적으로 증가시켜 더 많은 양의 입력 텍스트를 처리하면서도 더 효과적으로 추론하고 계획할 수 있게 합니다. 노트 작성은 프레임워크에 구애받지 않으며 다양한 반복적 RAG 방법과 통합될 수 있습니다. 우리는 두 가지 모델과 네 가지 평가 데이터셋을 사용하여 세 가지 반복적 RAG 방법에서의 효과를 입증합니다. 노트 작성은 출력 토큰의 최소 증가와 함께 전반적으로 평균 15.6% 포인트의 개선을 가져옵니다.
시간적 추론은 대형 언어 모델(LLMs)이 현실 세계를 이해하는 데 있어 핵심적인 요소입니다. 그러나 기존 연구들은 시간적 추론에 대한 현실 세계의 도전 과제들을 간과해 왔습니다: (1) 집약적인 시간 정보, (2) 빠르게 변화하는 사건 역학, 그리고 (3) 사회적 상호작용에서의 복잡한 시간적 의존성. 이러한 격차를 해소하기 위해, 우리는 현실 세계 시나리오에서의 시간적 추론을 위해 설계된 다층적 벤치마크 TIME을 제안합니다. TIME은 38,522개의 질문-답변 쌍으로 구성되어 있으며, 3개의 레벨과 11개의 세분화된 하위 작업을 포함합니다. 이 벤치마크는 서로 다른 현실 세계의 도전 과제를 반영하는 3개의 하위 데이터셋, 즉 TIME-Wiki, TIME-News, 그리고 TIME-Dial을 포괄합니다. 우리는 추론 모델과 비추론 모델에 대한 광범위한 실험을 수행하였고, 다양한 현실 세계 시나리오와 작업에 걸친 시간적 추론 성능에 대한 심층 분석을 진행하였으며, 테스트 시간 스케일링이 시간적 추론 능력에 미치는 영향을 요약하였습니다. 또한, 우리는 시간적 추론 분야의 미래 연구와 표준화된 평가를 촉진하기 위해 인간이 주석을 단 하위 집합인 TIME-Lite를 공개합니다. 코드는 https://github.com/sylvain-wei/TIME에서, 데이터셋은 https://huggingface.co/datasets/SylvainWei/TIME에서 이용 가능합니다.
저자원 언어를 포함한 대형 언어 모델(LLMs)의 언어적 역량 강화는 중요한 연구 분야입니다. 현재의 연구 방향은 주로 영어 코퍼스를 번역하여 생성된 합성 데이터에 의존하고 있으며, 이는 언어 이해와 번역 능력에서 유망한 결과를 보여주지만, 종종 원본 언어의 문화에 맞춰진 모델을 생성합니다. 이러한 모델은 지역 사회의 문화 유산과 가치를 충분히 반영하지 못하는 경우가 많습니다. 본 연구는 특정 커뮤니티의 (i) 언어, (ii) 문화 유산, (iii) 문화적 가치를 고려하여 맞춤형 합성 및 검색 기반 사전 학습 데이터를 생성하는 방법론을 제안합니다. 우리는 이집트와 모로코 방언을 테스트베드로 선택하여 이 방법론을 시연하며, 이는 이들의 언어적, 문화적 풍부함과 현재 LLMs에서의 저조한 대표성을 고려한 것입니다. 개념 증명으로, 우리는 이집트와 모로코 커뮤니티의 언어, 문화 유산, 가치를 반영한 3B 파라미터의 LLM인 NileChat을 개발했습니다. 다양한 이해, 번역, 문화 및 가치 정렬 벤치마크에서의 결과는 NileChat이 유사한 크기의 기존 아랍어 인식 LLMs를 능가하며, 더 큰 모델과 동등한 성능을 보임을 나타냅니다. 우리는 더 다양한 커뮤니티의 포함과 커버리지를 촉진하기 위해 방법론, 데이터, 모델을 커뮤니티와 공유합니다.
본 논문에서는 희소화된 대규모 언어 모델(LLM)을 기반으로 한 중국어 중심의 다국어 기계 번역 모델인 FuxiMT를 소개한다. FuxiMT의 학습을 위해 두 단계 전략을 채택하였다. 먼저 대규모 중국어 코퍼스로 모델을 사전 학습한 후, 65개 언어를 포함하는 대규모 병렬 데이터셋을 통해 다국어 미세 조정을 수행하였다. FuxiMT는 Mixture-of-Experts(MoEs)를 통합하고 다양한 자원 수준에서 견고한 성능을 보장하기 위해 커리큘럼 학습 전략을 사용한다. 실험 결과, FuxiMT는 특히 저자원 시나리오에서 최신 LLM 및 기계 번역 모델을 포함한 강력한 베이스라인을 크게 능가하는 것으로 나타났다. 또한 FuxiMT는 보이지 않는 언어 쌍에 대해 놀라운 제로샷 번역 능력을 보여주어, 병렬 데이터가 부족하거나 없는 상황에서도 커뮤니케이션 격차를 해소할 수 있는 잠재력을 보여준다.
디노보 펩타이드 시퀀싱은 프로테오믹스에서 중요한 과제입니다. 그러나 현재의 딥러닝 기반 방법들은 질량 분석 데이터의 고유한 복잡성과 노이즈 신호의 이질적 분포로 인해 데이터 특이적 편향을 보이며, 이는 성능을 제한합니다. 우리는 RankNovo를 제안합니다. RankNovo는 여러 시퀀싱 모델의 상호 보완적 강점을 활용하여 디노보 펩타이드 시퀀싱을 향상시키는 최초의 딥 리랭킹 프레임워크입니다. RankNovo는 리스트 방식의 리랭킹 접근법을 사용하며, 후보 펩타이드를 다중 시퀀스 정렬로 모델링하고 축 주의 메커니즘을 통해 후보들 간의 정보성 있는 특징을 추출합니다. 또한, 우리는 PMD(펩타이드 질량 편차)와 RMD(잔여 질량 편차)라는 두 가지 새로운 메트릭을 도입하여, 시퀀스와 잔여 수준에서 펩타이드 간의 질량 차이를 정량화함으로써 세밀한 지도를 제공합니다. 광범위한 실험을 통해 RankNovo는 리랭킹 사전 학습을 위해 사용된 기본 모델들을 능가할 뿐만 아니라, 새로운 최첨단 벤치마크를 설정함을 입증했습니다. 더욱이, RankNovo는 훈련 중에 노출되지 않은 모델들의 생성에 대해 강력한 제로샷 일반화 능력을 보여주며, 이는 펩타이드 시퀀싱을 위한 보편적 리랭킹 프레임워크로서의 견고성과 잠재력을 강조합니다. 우리의 연구는 기존의 단일 모델 패러다임에 근본적으로 도전하는 새로운 리랭킹 전략을 제시하며, 정확한 디노보 시퀀싱의 최전선을 발전시킵니다. 우리의 소스 코드는 GitHub에서 제공됩니다.