번역이 포함된 일일 선별된 AI 연구 논문
강화 학습(Reinforcement Learning, RL)은 대형 언어 모델(Large Language Model, LLM)의 추론 능력을 향상시키기 위한 유망한 접근 방식으로 부상했지만, 대부분의 공개된 연구는 수학과 코드에만 초점을 맞추어 일반적인 추론에 대한 RL의 광범위한 적용 가능성을 이해하는 데 한계가 있습니다. 주요 과제는 다양한 추론 영역에서 신뢰할 수 있고 확장 가능한 RL 보상 신호의 부재에 있습니다. 우리는 Guru를 소개합니다. 이는 수학, 코드, 과학, 논리, 시뮬레이션, 표 형식 데이터 등 6가지 추론 영역에 걸쳐 92,000개의 검증 가능한 예시로 구성된 RL 추론 코퍼스로, 각 영역별로 도메인 특화적인 보상 설계, 중복 제거, 필터링을 통해 RL 훈련의 신뢰성과 효과를 보장합니다. Guru를 기반으로, 우리는 LLM 추론을 위한 RL에서 기존의 연구 결과를 체계적으로 재검토하고, 영역 간에 상당한 차이를 관찰했습니다. 예를 들어, 기존 연구에서는 RL이 주로 사전 훈련된 모델의 기존 지식을 이끌어낸다고 주장하지만, 우리의 결과는 더 미묘한 패턴을 보여줍니다: 사전 훈련 중 자주 접한 영역(수학, 코드, 과학)은 교차 도메인 RL 훈련에서 쉽게 이점을 얻는 반면, 사전 훈련에서 제한적으로 노출된 영역(논리, 시뮬레이션, 표 형식 데이터)은 의미 있는 성능 향상을 위해 도메인 내 훈련이 필요하며, 이는 RL이 진정한 기술 습득을 촉진할 가능성이 있음을 시사합니다. 마지막으로, 우리는 공개적으로 이용 가능한 데이터로 RL 훈련을 받은 오픈 모델 중에서 최첨단 성능을 달성한 Guru-7B와 Guru-32B 두 모델을 제시합니다. 이 모델들은 6가지 추론 영역에 걸친 17개 작업 평가 세트에서 최고의 기준선을 각각 7.9%와 6.7% 능가합니다. 또한, 우리의 모델이 기본 모델의 Pass@k 성능을 효과적으로 개선하며, 특히 사전 훈련 데이터에 덜 등장할 가능성이 높은 복잡한 작업에서 더 큰 개선을 보임을 확인했습니다. 우리는 일반적인 추론을 촉진하기 위해 데이터, 모델, 훈련 및 평가 코드를 https://github.com/LLM360/Reasoning360에서 공개합니다.
본 논문은 자동회귀 모델링과 플로우 매칭을 활용한 개선된 네이티브 통합 멀티모달 모델, 즉 Show-o2를 소개한다. 3D 인과적 변이형 오토인코더 공간을 기반으로, 공간적(-시간적) 융합의 이중 경로를 통해 통합된 시각적 표현이 구성되며, 이는 이미지와 비디오 양식에 걸쳐 확장성을 보장하면서도 효과적인 멀티모달 이해와 생성을 가능하게 한다. 언어 모델을 기반으로, 자동회귀 모델링과 플로우 매칭은 각각 언어 헤드와 플로우 헤드에 네이티브하게 적용되어 텍스트 토큰 예측과 이미지/비디오 생성을 용이하게 한다. 더 큰 모델로의 효과적인 학습과 확장을 위해 두 단계의 훈련 레시피가 설계되었다. 결과적으로 Show-o2 모델은 텍스트, 이미지, 비디오 등 다양한 양식에 걸친 광범위한 멀티모달 이해 및 생성 작업을 처리하는 데 있어 다재다능함을 보여준다. 코드와 모델은 https://github.com/showlab/Show-o에서 공개되었다.
텍스트-음성 변환 및 오디오 생성 모델의 발전은 AI 시스템의 감정 이해 능력을 평가하기 위한 강력한 벤치마크의 필요성을 요구하고 있습니다. 현재의 음성 감정 인식(SER) 데이터셋은 감정의 세분성 부족, 프라이버시 문제, 또는 연기된 표현에 의존하는 등의 한계를 보이는 경우가 많습니다. 본 논문은 음성 감정 탐지를 위한 새로운 리소스인 EmoNet-Voice를 소개합니다. 이는 대규모 사전 학습 데이터셋인 EmoNet-Voice Big(11개의 목소리, 40가지 감정, 4개 언어로 구성된 4,500시간 이상의 음성 데이터 포함)과 인간 전문가 주석이 달린 새로운 벤치마크 데이터셋인 EmoNet-Voice Bench로 구성됩니다. EmoNet-Voice는 40가지 감정 카테고리의 세분화된 스펙트럼과 다양한 강도 수준에서 SER 모델을 평가하도록 설계되었습니다. 최첨단 음성 생성 기술을 활용하여, 특정 감정을 유발하도록 설계된 장면을 연기하는 배우를 시뮬레이션한 합성 오디오 클립을 제작했습니다. 특히, 심리학 전문가들이 감지된 강도 레이블을 부여하는 엄격한 검증을 수행했습니다. 이 합성적이고 프라이버시를 보호하는 접근 방식은 기존 데이터셋에서 종종 누락되는 민감한 감정 상태를 포함할 수 있게 합니다. 마지막으로, 인간 전문가와 높은 일치도를 보이며 음성 감정 인식에서 새로운 기준을 제시하는 Empathic Insight Voice 모델을 소개합니다. 현재 모델 환경 전반에 걸친 평가 결과, 분노와 같은 고각성 감정이 집중과 같은 저각성 상태보다 훨씬 쉽게 탐지된다는 유의미한 발견을 보여줍니다.
최근, 다중 모드 대형 언어 모델(MLLMs)은 강력한 시각 이해 능력으로 인해 점점 더 많은 연구 관심을 받고 있다. 다양한 시각 작업에서 인상적인 성과를 거두었지만, 차트-코드 생성 작업에서는 여전히 최적의 성능을 보이지 못하고 있다. 이 작업은 주어진 차트를 재현할 수 있는 실행 가능한 코드를 생성하도록 MLLMs에 요구하며, 정확한 시각 이해뿐만 아니라 시각적 요소를 구조화된 코드로 정확하게 번역하는 능력을 필요로 한다. 이 복잡한 작업을 직접 MLLMs에 요청하는 경우 종종 만족스럽지 못한 결과를 얻는다. 이러한 문제를 해결하기 위해, 우리는 구조화된 지침을 기반으로 한 반복적 개선 방법인 {ChartIR}을 제안한다. 먼저, 시각 이해와 코드 번역이라는 두 가지 작업을 구분한다. 시각 이해 구성 요소를 달성하기 위해, 우리는 설명과 차이라는 두 가지 유형의 구조화된 지침을 설계한다. 설명 지침은 참조 차트의 시각적 요소를 포착하고, 차이 지침은 참조 차트와 생성된 차트 간의 불일치를 특성화한다. 이러한 지침은 시각적 특징을 언어 표현으로 효과적으로 변환하여, 후속 코드 번역 과정을 용이하게 한다. 둘째, 전체 차트 생성 파이프라인을 초기 코드 생성과 반복적 개선이라는 두 단계로 분해하여 최종 출력의 점진적 개선을 가능하게 한다. 실험 결과는 우리의 방법이 오픈소스 모델 Qwen2-VL과 클로즈드소스 모델 GPT-4o 모두에서 다른 방법에 비해 우수한 성능을 달성함을 보여준다.
음악 작품의 특성을 정확히 반영한 상세한 캡션은 음악 데이터베이스를 풍부하게 하고 음악 AI 연구를 진전시킬 수 있습니다. 본 논문은 캡션 생성과 함께 조성 감지, 보컬 감지 등의 보조 음악 특징 탐지 작업을 통합한 다중 작업 음악 캡션 모델인 SonicVerse를 소개합니다. 이를 통해 저수준의 음향적 세부 사항과 고수준의 음악적 속성을 직접 포착할 수 있습니다. 주요 기여는 오디오 입력을 언어 토큰으로 변환하면서 전용 보조 헤드를 통해 음악 특징을 탐지하는 투영 기반 아키텍처입니다. 이러한 헤드의 출력 또한 언어 토큰으로 투영되어 캡션 입력을 강화합니다. 이 프레임워크는 짧은 음악 조각에 대한 풍부하고 설명적인 캡션을 생성할 뿐만 아니라, 대형 언어 모델을 사용하여 출력을 연결함으로써 더 긴 음악 작품에 대한 시간 정보가 포함된 상세한 설명을 직접 생성할 수 있게 합니다. 모델을 학습시키기 위해, 모듈식 음악 특징 추출기인 MIRFLEX를 사용하여 MusicBench 데이터셋에 음악 특징을 주석 처리하여 오디오, 캡션 및 음악 특징 데이터를 짝지었습니다. 실험 결과는 이러한 방식으로 특징을 통합함으로써 생성된 캡션의 품질과 세부 사항이 개선됨을 보여줍니다.
최근의 대형 언어 모델(LLMs)은 추론 벤치마크에서 높은 정확도를 보고하고 있습니다. 그러나 이러한 결과가 진정한 추론에서 비롯된 것인지, 아니면 훈련 세트의 통계적 기억에서 비롯된 것인지는 여전히 불분명합니다. 인과관계의 사다리(Pearl, 2009)와 그 세 가지 수준(연관성, 개입, 반사실적 사고)에서 영감을 받아, 본 논문은 LLMs의 추론 능력 계층을 특성화하는 RE-IMAGINE 프레임워크와 함께, 계층의 다양한 수준에서 문제 변형을 자동으로 생성하는 파이프라인을 소개합니다. 중간 기호 표현을 통해 문제를 변형함으로써, RE-IMAGINE은 단순한 기억만으로는 해결할 수 없는 무수히 많은 문제를 생성합니다. 또한, 이 프레임워크는 일반적이며 수학, 코드, 논리 등 다양한 추론 영역에서 작동할 수 있습니다. 우리는 이 프레임워크를 널리 사용되는 네 가지 벤치마크에 적용하여 여러 LLMs 계열을 평가하고, 문제 변형으로 질의했을 때 모델의 성능이 감소하는 것을 관찰했습니다. 이러한 평가는 과거 성적에 대한 통계적 기억의 의존도를 나타내며, 추론 계층 전반에 걸친 기술을 목표로 하는 추가 연구의 문을 엽니다.