번역이 포함된 일일 선별된 AI 연구 논문
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 대규모 언어 모델(Large Language Models, LLMs)의 추론 능력을 향상시키는 강력한 접근법으로 부상했지만, 그 메커니즘은 아직 잘 이해되지 않고 있다. 본 연구에서는 토큰 엔트로피 패턴이라는 새로운 관점을 통해 RLVR을 선구적으로 탐구하며, 서로 다른 토큰이 추론 성능에 미치는 영향을 포괄적으로 분석한다. 사고의 연쇄(Chain-of-Thought, CoT) 추론에서 토큰 엔트로피 패턴을 관찰한 결과, 극소수의 토큰만이 높은 엔트로피를 보이며, 이러한 토큰들이 모델을 다양한 추론 경로로 이끄는 중요한 분기점 역할을 한다는 것을 발견했다. 또한, RLVR 훈련 중 엔트로피 패턴이 어떻게 진화하는지 연구한 결과, RLVR은 기본 모델의 엔트로피 패턴을 크게 따르면서 주로 높은 엔트로피를 가진 토큰의 엔트로피를 조정한다는 것을 확인했다. 이러한 발견은 높은 엔트로피 토큰(즉, 분기 토큰)이 RLVR에 있어서 중요함을 강조한다. 우리는 궁극적으로 정책 그래디언트 업데이트를 분기 토큰으로 제한함으로써 RLVR을 개선했으며, 80/20 법칙을 넘어서는 결과를 발견했다: Qwen3-8B 기본 모델에서는 전체 그래디언트 업데이트와 비슷한 성능을 유지하면서도 토큰의 20%만 활용했고, Qwen3-32B(AIME'25에서 +11.04, AIME'24에서 +7.71)와 Qwen3-14B(AIME'25에서 +4.79, AIME'24에서 +5.21) 기본 모델에서는 전체 그래디언트 업데이트를 크게 능가하며 강력한 스케일링 경향을 보였다. 반면, 가장 낮은 엔트로피를 가진 80%의 토큰만으로 훈련할 경우 성능이 현저히 저하되었다. 이러한 결과는 RLVR의 효율성이 주로 추론 방향을 결정하는 높은 엔트로피 토큰을 최적화함으로써 발생함을 시사한다. 종합적으로, 우리의 연구 결과는 토큰 엔트로피 관점을 통해 RLVR을 이해하고, 높은 엔트로피를 가진 소수 토큰을 활용하여 RLVR을 최적화함으로써 LLM 추론을 더욱 개선할 수 있는 잠재력을 강조한다.
대규모 다중모달 데이터셋으로 사전 학습된 시각-언어 모델(VLMs)은 풍부한 시각적 및 언어적 지식을 인코딩하여 로봇 공학의 강력한 기반이 된다. 최근 접근법들은 로봇 정책을 처음부터 학습시키는 대신, VLMs를 시각-언어-행동(VLA) 모델로 적응시켜 자연어 기반의 인식과 제어를 가능하게 한다. 그러나 기존 VLA 모델들은 일반적으로 수십억 개의 파라미터를 가진 대규모 모델로, 높은 학습 비용과 제한된 실제 배포 가능성을 초래한다. 또한, 이들은 학계와 산업계의 데이터셋에 의존하며, 저렴한 로봇 플랫폼에서 수집된 커뮤니티 데이터의 증가하는 가용성을 간과한다. 본 연구에서는 학습 및 추론 비용을 크게 줄이면서도 경쟁력 있는 성능을 유지하는 소형, 효율적, 커뮤니티 주도형 VLA인 SmolVLA를 제안한다. SmolVLA는 단일 GPU에서 학습되고 소비자용 GPU 또는 심지어 CPU에서 배포될 수 있도록 설계되었다. 더 나은 반응성을 위해, 인식 및 행동 예측을 행동 실행과 분리하는 비동기적 추론 스택을 도입하여 청크 단위의 행동 생성을 통해 더 높은 제어 속도를 달성한다. SmolVLA는 컴팩트한 크기임에도 불구하고 10배 더 큰 VLA 모델들과 비슷한 성능을 보인다. 우리는 SmolVLA를 다양한 시뮬레이션 및 실제 로봇 벤치마크에서 평가하고, 모든 코드, 사전 학습된 모델, 학습 데이터를 공개한다.
우리는 검증 가능한 보상을 제공하는 강화 학습을 위한 추론 환경 라이브러리인 Reasoning Gym(RG)을 소개한다. 이 라이브러리는 대수학, 산술, 계산, 인지, 기하학, 그래프 이론, 논리학 및 다양한 일반 게임을 포함한 여러 도메인에 걸쳐 100개 이상의 데이터 생성기와 검증기를 제공한다. RG의 핵심 혁신은 기존의 대부분의 추론 데이터셋이 일반적으로 고정된 것과 달리, 조정 가능한 복잡도로 사실상 무한한 훈련 데이터를 생성할 수 있는 능력이다. 이 절차적 생성 접근법은 다양한 난이도에 걸친 지속적인 평가를 가능하게 한다. 우리의 실험 결과는 RG가 추론 모델의 평가와 강화 학습 모두에서 효과적임을 입증한다.
멀티모달 대규모 언어 모델(MLLMs)은 추론 작업에서 유망한 능력을 보여주고 있지만, 특히 단일 모달 텍스트 기반 모델과 비교할 때 명시적인 자기 반성과 자기 수정이 필요한 복잡한 문제에서는 여전히 어려움을 겪고 있다. 기존의 반성 방법은 단순하며, 사전 훈련된 모델의 추론 능력과 지식 한계가 초기 훈련 중에 대체로 고정되어 있기 때문에 의미 있고 유익한 피드백을 생성하는 데 어려움을 겪는다. 이러한 문제를 극복하기 위해, 우리는 그룹 상대 정책 최적화(GRPO)를 통한 멀티모달 자기 반성 강화 추론(SRPO)을 제안한다. 이는 멀티모달 LLM 추론을 강화하기 위해 명시적으로 설계된 두 단계의 반성 인식 강화 학습(RL) 프레임워크이다. 첫 번째 단계에서는 고급 MLLM의 지도 하에 반성 중심의 고품질 데이터셋을 구축하여, 초기 응답에 기반한 반성을 생성함으로써 정책 모델이 추론과 자기 반성을 모두 학습할 수 있도록 한다. 두 번째 단계에서는 GRPO 프레임워크 내에서 간결하고 인지적으로 의미 있는 반성을 장려하면서 중복을 피하는 새로운 보상 메커니즘을 도입한다. MathVista, MathVision, MathVerse, MMMU-Pro를 포함한 여러 멀티모달 추론 벤치마크에서 Qwen-2.5-VL-7B와 Qwen-2.5-VL-32B를 사용한 광범위한 실험을 통해 SRPO가 최첨단 모델을 크게 능가하며, 추론 정확도와 반성 품질 모두에서 주목할 만한 개선을 달성함을 입증하였다.
대규모 언어 모델(LLM)을 학습시키는 것은 그 방대한 규모와 이질적인 아키텍처로 인해 여러 도전 과제를 안고 있습니다. AdamW와 같은 적응형 최적화 기법이 그래디언트 변동을 해결하는 데 도움을 주지만, 여전히 매개변수별 학습률 추정의 효율성과 효과성에 어려움을 겪으며, 이는 학습 불안정성, 느린 수렴 속도, 그리고 매개변수 효율적 미세 조정(PEFT) 기법과의 낮은 호환성으로 이어집니다. 본 연구에서는 동적 그룹화와 그룹별 스케일링을 통해 적응형 학습률 추정을 개선하는 최적화기 래퍼인 Scaling with Gradient Grouping(SGG)을 소개합니다. SGG는 먼저 각 계층의 그래디언트 통계를 클러스터로 그룹화한 후, 클러스터별 스케일링을 적용하여 각 매개변수의 학습률을 보정함으로써, 정밀한 매개변수별 적응을 유지하면서도 집단적 그룹별 제약을 부과합니다. 다양한 (M)LLM 벤치마크에서의 실험 결과, SGG는 기존 최적화기와 원활하게 통합되며, 다양한 모델 크기에 걸쳐 일관된 성능 향상과 더 빠른 수렴 속도를 보여줍니다. 또한, 다양한 배치 크기와 학습률에서의 안정성은 SGG를 LLM 최적화를 위한 강력한 선택지로 자리매김합니다.
텍스트-투-비디오 확산 모델의 최근 발전으로 고품질 비디오 합성이 가능해졌지만, 특히 데이터와 컴퓨팅 자원이 제한된 상황에서 제어 가능한 생성은 여전히 어려운 과제로 남아 있습니다. 조건부 생성을 위한 기존의 미세 조정 방법들은 대부분 외부 인코더나 아키텍처 수정에 의존하며, 이는 대규모 데이터셋을 요구하고 공간적으로 정렬된 조건에 제한되는 경우가 많아 유연성과 확장성이 떨어집니다. 본 연구에서는 사전 학습된 비디오 확산 모델을 다양한 조건부 생성 작업에 적응시키기 위한 효율적이고 다용도적인 접근 방식인 Temporal In-Context Fine-Tuning(TIC-FT)을 소개합니다. 우리의 핵심 아이디어는 조건 프레임과 목표 프레임을 시간 축을 따라 연결하고 점진적으로 노이즈 수준이 증가하는 중간 버퍼 프레임을 삽입하는 것입니다. 이러한 버퍼 프레임은 원활한 전환을 가능하게 하여 미세 조정 과정을 사전 학습된 모델의 시간적 역학과 일치시킵니다. TIC-FT는 아키텍처 변경이 필요 없으며 단 10-30개의 학습 샘플로도 강력한 성능을 달성합니다. 우리는 CogVideoX-5B 및 Wan-14B와 같은 대규모 기본 모델을 사용하여 이미지-투-비디오 및 비디오-투-비디오 생성과 같은 다양한 작업에서 이 방법을 검증했습니다. 광범위한 실험을 통해 TIC-FT가 조건 충실도와 시각적 품질 모두에서 기존의 베이스라인을 능가하며, 학습과 추론 모두에서 매우 효율적임을 보여줍니다. 추가 결과는 https://kinam0252.github.io/TIC-FT/에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 자유 형식의 언어 상호작용을 통해 복잡한 추론과 의사결정을 수행할 수 있는 에이전트를 가능하게 했습니다. 그러나 협상이나 질문 게임과 같은 개방형 언어 행동 환경에서, 행동 공간은 토큰에 대한 결합 분포로 공식화될 수 있으며, 이는 기하급수적으로 큰 행동 공간을 초래합니다. 이러한 공간에서 행동을 샘플링하면 극단적인 보상 희소성이 발생할 수 있으며, 이는 큰 보상 분산을 가져와 효과적인 강화 학습(RL)을 방해합니다. 이를 해결하기 위해, 우리는 ARIA(Aggregates Rewards in Intention space)라는 방법을 제안합니다. ARIA는 자연어 행동을 고차원의 결합 토큰 분포 공간에서 저차원의 의도 공간으로 투영하여, 의미적으로 유사한 행동들을 클러스터링하고 공유된 보상을 할당합니다. 이 의도 인식 보상 집계는 보상 신호를 밀도 있게 만들어 보상 분산을 줄이고, 더 나은 정책 최적화를 촉진합니다. 광범위한 실험을 통해 ARIA가 정책 그래디언트 분산을 크게 줄일 뿐만 아니라, 네 가지 하위 작업에서 평균 9.95%의 상당한 성능 향상을 제공하며, 오프라인 및 온라인 RL 기준선을 꾸준히 능가함을 입증했습니다.
실제 세계의 구체화된 에이전트들은 단일 동작을 넘어선 다단계 해결책을 요구하는 고수준 목표로 특징지어지는 장기적 과제에 직면합니다. 이러한 과제를 성공적으로 수행하기 위해서는 고수준 작업 계획(즉, 목표를 하위 작업으로 분해)과 저수준 동작 제어(즉, 정밀한 로봇 동작 생성)가 모두 필요합니다. 기존의 시각 언어 동작(VLA) 모델과 계층적 아키텍처는 구체화된 작업에서 잠재력을 보이지만, 전자는 계획에서 종종 실패하고, 후자는 조정 문제로 어려움을 겪어 성능을 저해합니다. 이러한 한계를 극복하기 위해 우리는 장기적 과제를 위한 새로운 통합 VLA 프레임워크인 LoHoVLA를 소개합니다. LoHoVLA는 대규모 사전 학습된 시각 언어 모델(VLM)을 백본으로 활용하여 하위 작업 생성과 로봇 동작 예측을 각각 위한 언어 및 동작 토큰을 공동으로 생성합니다. 이 공유된 표현은 작업 간 더 나은 일반화를 촉진합니다. 또한, LoHoVLA는 고수준 계획과 저수준 제어 모두에서 발생하는 오류를 완화하기 위해 계층적 폐루프 제어 메커니즘을 채택합니다. LoHoVLA를 학습시키기 위해 우리는 Ravens 시뮬레이터를 기반으로 구축된 LoHoSet 데이터셋을 소개합니다. 이 데이터셋은 20개의 장기적 과제로 구성되어 있으며, 각 과제는 시각적 관찰, 언어적 목표, 하위 작업, 로봇 동작으로 이루어진 1,000개의 전문가 데모를 포함합니다. 실험 결과는 LoHoVLA가 Ravens 시뮬레이터에서의 장기적 구체화된 작업에서 계층적 및 표준 VLA 접근법을 크게 능가함을 보여줍니다. 이러한 결과는 일반화 가능한 구체화된 지능을 발전시키기 위한 통합 아키텍처의 가능성을 강조합니다.
최근 ChatGPT-4o의 강력한 텍스트-이미지 변환 능력으로 인해 네이티브 멀티모달 대형 언어 모델에 대한 관심이 높아지고 있습니다. 그러나 현재의 멀티모달 능력은 여전히 이미지와 텍스트에 국한되어 있습니다. 이미지를 넘어서, 3D 콘텐츠를 이해하고 생성하는 능력 역시 매우 중요합니다. 이러한 격차를 해결하기 위해, 우리는 ShapeLLM-Omni를 제안합니다. 이는 3D 자산과 텍스트를 임의의 순서로 이해하고 생성할 수 있는 네이티브 3D 대형 언어 모델입니다. 먼저, 우리는 3D 벡터 양자화 변이형 오토인코더(VQVAE)를 훈련시켜 3D 객체를 이산 잠재 공간으로 매핑함으로써 효율적이고 정확한 형태 표현과 재구성을 달성합니다. 3D 인식 이산 토큰을 기반으로, 우리는 혁신적으로 3D-Alpaca라는 대규모 연속 훈련 데이터셋을 구축했습니다. 이 데이터셋은 생성, 이해, 편집을 포함하며, 향후 연구와 훈련을 위한 풍부한 자원을 제공합니다. 마지막으로, 3D-Alpaca 데이터셋에서 Qwen-2.5-vl-7B-Instruct 모델의 지시 기반 훈련을 수행합니다. 우리의 작업은 기본적인 3D 능력을 갖춘 멀티모달 모델을 확장하는 효과적인 시도를 제공하며, 이는 3D 네이티브 AI의 미래 연구에 기여합니다. 프로젝트 페이지: https://github.com/JAMESYJL/ShapeLLM-Omni
규칙 기반 강화 학습(RL)을 다중 모달 대형 언어 모델(MLLM)에 적용하는 것은 텍스트 전용 도메인에서의 연구 결과와는 다른 독특한 도전과 잠재적 편차를 야기하며, 특히 지각 중심 작업에서 두드러집니다. 본 논문은 퍼즐 조각을 구조화된 실험 프레임워크로 사용하여 규칙 기반 시각적 RL에 대한 포괄적인 연구를 제공합니다. 퍼즐 조각은 내재된 그라운드 트루스, 조절 가능한 난이도, 복잡한 의사결정을 요구한다는 점에서 이 연구에 이상적입니다. 우리의 연구는 몇 가지 주요 발견을 제시합니다: 첫째, 가장 간단한 퍼즐 조각에서 거의 무작위 추측 수준으로 시작한 MLLM이 미세 조정을 통해 거의 완벽한 정확도를 달성하고 복잡하고 보지 못한 구성으로 일반화할 수 있음을 확인했습니다. 둘째, 퍼즐 조각에 대한 훈련은 다른 시각적 작업으로의 일반화를 유도할 수 있으며, 그 효과는 특정 작업 구성에 따라 달라집니다. 셋째, MLLM은 명시적 추론 없이도 학습하고 일반화할 수 있지만, 오픈소스 모델은 종종 직접 답변을 선호합니다. 결과적으로, 단계별 추론을 위해 훈련된 경우에도 최종 답을 도출하는 과정에서 사고 과정을 무시할 수 있습니다. 넷째, 복잡한 추론 패턴은 새롭게 나타나는 것이 아니라 사전에 존재하는 것으로 보이며, 훈련과 작업 난이도가 증가함에 따라 그 빈도가 증가합니다. 마지막으로, 우리의 결과는 RL이 지도 미세 조정(SFT)보다 더 효과적인 일반화를 보이며, 초기 SFT 콜드 스타트 단계가 후속 RL 최적화를 방해할 수 있음을 보여줍니다. 비록 이러한 관찰이 퍼즐 조각을 기반으로 하며 다른 시각적 작업에서는 다를 수 있지만, 이 연구는 규칙 기반 시각적 RL과 다중 모달 학습에서의 잠재력에 대한 집단적 이해라는 더 큰 퍼즐에 귀중한 조각을 제공합니다. 코드는 https://github.com/zifuwanggg/Jigsaw-R1에서 확인할 수 있습니다.
최근 비디오 확산 모델(video diffusion models)의 발전은 로봇 의사결정 데이터 생성에 강력한 잠재력을 보여주었으며, 궤적 조건(trajectory conditions)을 통해 더욱 세밀한 제어가 가능해졌습니다. 그러나 기존의 궤적 기반 방법들은 주로 단일 객체의 운동에 초점을 맞추고 있어 복잡한 로봇 조작에서 중요한 다중 객체 상호작용을 포착하는 데 어려움을 겪습니다. 이러한 한계는 겹치는 영역에서의 다중 특징 얽힘(multi-feature entanglement)으로 인해 시각적 충실도가 저하되기 때문에 발생합니다. 이를 해결하기 위해, 우리는 협력적 궤적 형식(collaborative trajectory formulation)을 통해 객체 간 역학을 모델링하는 새로운 프레임워크인 RoboMaster를 제안합니다. 기존 방법들이 객체를 분해하는 것과 달리, 우리의 핵심은 상호작용 과정을 세 가지 하위 단계로 분해하는 것입니다: 상호작용 전, 상호작용 중, 상호작용 후. 각 단계는 주도 객체의 특징을 사용하여 모델링되며, 특히 상호작용 전후 단계에서는 로봇 팔, 상호작용 중에는 조작 대상 객체의 특징을 사용함으로써 기존 작업에서 발생하는 다중 객체 특징 융합의 단점을 완화합니다. 또한, 비디오 전반에 걸쳐 객체의 의미적 일관성을 보장하기 위해 외형 및 형태 인식 잠재 표현(appearance- and shape-aware latent representations)을 통합했습니다. 도전적인 Bridge V2 데이터셋과 실제 환경 평가에서의 광범위한 실험을 통해, 우리의 방법이 기존 접근법을 능가하며 로봇 조작을 위한 궤적 제어 비디오 생성 분야에서 새로운 최첨단 성능을 달성함을 입증했습니다.
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)을 훈련시키는 데 있어 특히 추론 작업에서 주목받는 패러다임으로 자리 잡았습니다. LLM을 위한 효과적인 RL은 대규모 병렬화를 필요로 하며, 효율적인 훈련 시스템의 긴급한 필요성을 제기합니다. 기존의 대부분의 대규모 RL 시스템은 배치 설정에서 생성과 훈련을 번갈아 가며 수행하는 동기식 방식으로, 각 훈련 배치의 롤아웃은 동일한(또는 최신) 모델에 의해 생성됩니다. 이는 RL 훈련을 안정화시키지만 시스템 수준의 심각한 비효율성을 초래합니다. 생성은 배치 내 가장 긴 출력이 완료될 때까지 기다려야 하며, 이로 인해 GPU 활용도가 저하됩니다. 본 논문에서는 생성과 훈련을 완전히 분리한 완전 비동기식 RL 시스템인 AReaL을 제안합니다. AReaL의 롤아웃 작업자는 기다리지 않고 지속적으로 새로운 출력을 생성하며, 훈련 작업자는 데이터 배치가 수집될 때마다 모델을 업데이트합니다. AReaL은 또한 시스템 수준의 최적화를 통합하여 GPU 활용도를 크게 향상시킵니다. RL 훈련을 안정화하기 위해 AReaL은 롤아웃과 훈련 작업자의 작업 부하를 균형 있게 조정하여 데이터의 신선도를 제어하고, 오래된 훈련 샘플을 더 잘 처리하기 위해 신선도 강화 PPO 변형을 채택합니다. 수학 및 코드 추론 벤치마크에서의 광범위한 실험 결과, AReaL은 동일한 수의 GPU를 사용하는 최고의 동기식 시스템에 비해 최대 2.57배의 훈련 속도 향상을 달성하며, 최종 성능도 동등하거나 더욱 개선되었음을 보여줍니다. AReaL의 코드는 https://github.com/inclusionAI/AReaL/에서 확인할 수 있습니다.
대규모 멀티모달 모델(Large Multimodal Models, LMMs)은 다양한 시각-언어 작업에서 강력한 성능을 보여왔습니다. 그러나 환경 모니터링 및 인간 활동의 영향을 이해하는 데 중요한 지구 관측(Earth Observation, EO) 데이터를 포괄적으로 이해하는 데는 종종 어려움을 겪습니다. 본 연구에서는 다중 세분성 및 다중 센서 EO 데이터 이해를 위한 새로운 시각-언어 프레임워크인 EarthMind를 제안합니다. EarthMind는 두 가지 핵심 구성 요소를 특징으로 합니다: (1) 픽셀 수준의 이해를 강화하기 위해 LLM 내의 주의를 재배치하는 공간 주의 프롬프팅(Spatial Attention Prompting, SAP), 그리고 (2) 이질적인 모달리티를 공유 공간에 정렬하고 정보 밀도에 따라 토큰을 적응적으로 재가중하는 교차 모달 융합(Cross-modal Fusion)입니다. 다중 센서 융합 평가를 용이하게 하기 위해, 2,000개 이상의 인간 주석이 달린 다중 센서 이미지-질문 쌍을 포함한 포괄적인 벤치마크인 EarthMind-Bench를 제안합니다. 이 벤치마크는 다양한 인지 및 추론 작업을 다룹니다. 광범위한 실험을 통해 EarthMind의 효과성을 입증하였습니다. EarthMind는 EarthMind-Bench에서 최첨단 성능을 달성하며, 규모가 4B임에도 불구하고 GPT-4o를 능가합니다. 또한, EarthMind는 여러 공개 EO 벤치마크에서 기존 방법들을 능가하며, 다중 세분성 및 다중 센서 문제를 통합 프레임워크 내에서 처리할 수 있는 잠재력을 보여줍니다.
스케일링 법칙은 모델 크기, 계산량, 데이터 규모에 기반하여 모델 성능을 예측 가능하게 스케일링함으로써 최근 머신러닝의 발전을 이끌어왔다. 동시에, AI의 계산 비용 증가는 대규모 학습 및 추론과 관련된 높은 계산 요구를 완화하기 위해 양자화(quantization) 및 희소화(sparsification)와 같은 모델 압축 기술의 등장을 촉진하였다. 본 논문은 스케일링 법칙과 압축 형식 간의 상호작용을 탐구하며, 희소화, 스칼라 양자화, 희소 양자화, 심지어 벡터 양자화와 같은 다양한 압축 표현을 통해 학습이 이루어질 때 통합된 스케일링 프레임워크가 모델 성능을 정확히 예측할 수 있는지 조사한다. 우리의 주요 기여는 일반적인 스케일링 법칙 공식을 검증하고, 이 공식이 개별적으로뿐만 아니라 다양한 압축 유형에 걸쳐 조합적으로 적용 가능함을 보여주는 것이다. 이를 바탕으로, 우리는 이론적 및 실증적으로 단순한 "용량(capacity)" 지표가 존재하며, 이 지표가 무작위 가우시안 데이터를 적합시키는 표현의 능력에 기반하여 여러 압축 표현 간의 파라미터 효율성을 강력하게 예측할 수 있음을 입증한다. 실용적인 측면에서, 우리는 이 공식을 확장하여 다양한 압축 형식의 정확도 잠재력을 직접 비교하고, 희소 양자화 형식에 대한 더 나은 학습 알고리즘을 도출한다.
기존의 대형 언어 모델(LLMs)은 복잡한 지시를 따르는 데 어려움을 겪고 있으며, 특히 여러 제약 조건이 병렬, 연쇄, 분기 구조로 조직된 경우 더욱 그러합니다. 직관적인 해결책 중 하나인 사고의 연쇄(Chain-of-Thought, CoT)는 LLM의 능력을 보편적으로 향상시킬 것으로 기대됩니다. 그러나 우리는 기본적인 CoT가 단순히 지시를 재구성하는 피상적인 추론 패턴으로 인해 성능에 부정적인 영향을 미친다는 사실을 발견했습니다. 이는 제약 조건의 구성을 파헤쳐 유형과 차원의 계층 구조 간 관계를 식별하지 못하기 때문입니다. 이를 해결하기 위해, 우리는 테스트 시간 계산 확장을 위한 추론을 유도함으로써 복잡한 지시를 다루는 LLM의 성능을 향상시키는 체계적인 방법을 제안합니다. 첫째, 기존 분류 체계 하에서 복잡한 지시를 분해하고 재현 가능한 데이터 수집 방법을 제안합니다. 둘째, 검증 가능한 규칙 중심의 보상 신호를 활용한 강화 학습(Reinforcement Learning, RL)을 통해 지시를 따르는 데 특화된 추론 능력을 배양합니다. 우리는 복잡한 지시 하에서의 피상적이고 비본질적인 추론의 문제를 샘플 간 대조를 통해 우수한 CoT 강화로 해결합니다. 또한 전문가의 행동 복제(Behavior Cloning)를 활용하여 빠른 사고를 하는 LLM에서 숙련된 추론자로의 안정적인 분포 이동을 촉진합니다. 7개의 포괄적인 벤치마크에서의 광범위한 평가는 제안된 방법의 타당성을 확인하며, 1.5B 규모의 LLM이 8B 규모의 LLM과 비슷한 성능을 보이면서 11.74%의 성능 향상을 달성했습니다. 코드와 데이터는 https://github.com/yuleiqin/RAIF에서 확인할 수 있습니다.
보상 모델링은 인간 피드백을 통한 강화 학습(RLHF)을 적용하여 대규모 언어 모델(LLM)을 정렬할 때 안전한 기초 모델을 구축하는 데 있어 핵심 단계입니다. 그러나 Bradley-Terry(BT) 모델에 기반한 보상 모델링은 전역 보상 함수를 가정함으로써 본질적으로 다양하고 이질적인 인간 선호도를 포착하지 못합니다. 따라서 이러한 지나친 단순화는 LLM이 개인화와 다원적 정렬을 지원하는 데 한계를 가져옵니다. 이론적으로, 인간 선호도가 다양한 하위 그룹의 혼합 분포를 따를 경우 단일 BT 모델은 줄일 수 없는 오류를 갖는다는 것을 보여줍니다. 기존의 해결책들, 예를 들어 세분화된 주석을 활용한 다목적 학습 등은 이 문제를 해결하는 데 도움을 주지만, 비용이 많이 들고 미리 정의된 속성에 제약을 받아 인간 가치의 풍부함을 완전히 포착하지 못합니다. 본 연구에서는 명시적인 세분화된 주석 없이도 대규모 이진 선호도 데이터셋을 활용하여 개인화된 선호도 학습을 강화하는 두 단계 프레임워크인 MiCRo를 소개합니다. 첫 번째 단계에서 MiCRo는 다양한 인간 선호도를 포착하기 위해 상황 인식 혼합 모델링 접근법을 도입합니다. 두 번째 단계에서는 특정 상황에 따라 혼합 가중치를 동적으로 조정하여 모호성을 해결하는 온라인 라우팅 전략을 통합함으로써 최소한의 추가 감독으로도 효율적이고 확장 가능한 선호도 적응을 가능하게 합니다. 여러 선호도 데이터셋에 대한 실험을 통해 MiCRo가 다양한 인간 선호도를 효과적으로 포착하고 하위 작업에서의 개인화를 크게 개선함을 입증합니다.
시각적 영역에서의 인공지능 생성 콘텐츠(AIGC)의 급속한 발전은 확산 기반 아키텍처와 같은 정교한 생성 프레임워크를 통해 매우 사실적인 합성 이미지와 비디오를 만들어냈습니다. 이러한 혁신은 상당한 기회를 열어주는 동시에 콘텐츠의 진위성과 무결성에 대한 중요한 우려를 제기합니다. 현재 많은 AIGC 탐지 방법은 블랙박스 이진 분류기로 작동하며, 이는 제한된 해석 가능성을 제공하고, 이미지와 비디오를 통합된 프레임워크에서 탐지하는 접근법을 지원하지 않습니다. 이러한 이중 한계는 모델의 투명성을 저해하고 신뢰성을 감소시키며 실질적인 배포를 방해합니다. 이러한 문제를 해결하기 위해, 우리는 설명 가능한 다중 모달 AIGC 탐지를 위해 특별히 설계된 새로운 통합 대규모 데이터셋인 IVY-FAKE를 소개합니다. 이전 벤치마크들이 단편적인 모달리티 커버리지와 희소한 주석으로 고통받았던 것과 달리, IVY-FAKE는 150,000개 이상의 풍부한 주석이 달린 훈련 샘플(이미지 및 비디오)과 18,700개의 평가 예제를 포함하며, 각각 단순한 이진 레이블을 넘어 상세한 자연어 추론을 제공합니다. 이를 바탕으로, 우리는 이미지와 비디오 콘텐츠 모두에 대해 설명 가능한 탐지를 수행하는 통합 AIGC 탐지 및 설명 가능 아키텍처인 Ivy Explainable Detector(IVY-XDETECTOR)를 제안합니다. 우리의 통합 시각-언어 모델은 여러 이미지 및 비디오 탐지 벤치마크에서 최첨단 성능을 달성하며, 우리의 데이터셋과 모델링 프레임워크가 가능하게 한 중요한 발전을 강조합니다. 우리의 데이터는 https://huggingface.co/datasets/AI-Safeguard/Ivy-Fake에서 공개적으로 이용 가능합니다.
Chain-of-Thought(CoT) 프롬프팅은 정보 검색(IR)을 포함한 대규모 언어 모델(LLM)에서 복잡한 추론을 가능하게 합니다. 그러나 이 방법은 종종 과도한 사고(overthinking)를 유발하여, 모델이 의미론적으로 중복된 과도하게 긴 추적을 생성하지만 거의 또는 전혀 이점을 제공하지 못하는 문제가 있습니다. 우리는 IR에서 두 가지 주요 과제를 확인했습니다: 유사한 상태를 반복적으로 방문하는 중복된 궤적과 사용자 의도에서 벗어나는 잘못된 추론입니다. 이를 해결하기 위해 우리는 State Machine Reasoning(SMR)을 제안합니다. SMR은 조기 중단과 세밀한 제어를 지원하는 이산적 행동(Refine, Rerank, Stop)으로 구성된 전환 기반 추론 프레임워크입니다. BEIR 및 BRIGHT 벤치마크에서의 실험 결과, SMR은 검색 성능(nDCG@10)을 3.4% 향상시키면서 토큰 사용량을 74.4% 감소시켰습니다. SMR은 작업별 튜닝 없이도 다양한 LLM과 검색기에 일반화되며, 기존의 CoT 추론에 대한 실용적인 대안을 제공합니다. 코드와 세부 사항은 https://github.com/ldilab/SMR에서 확인할 수 있습니다.
다중 에이전트 시스템(MAS)을 위해 대규모 언어 모델(LLM)을 직접 훈련시키는 것은 복잡한 보상 모델링, 동적인 에이전트 상호작용, 그리고 까다로운 일반화 요구 사항으로 인해 여전히 어려운 과제로 남아 있습니다. 본 논문은 사후 훈련 기법, 특히 지도 미세 조정(SFT)과 검증 가능한 보상을 활용한 강화 학습(RLVR)이 다중 에이전트 시나리오에 효과적으로 일반화될 수 있는지 탐구합니다. 우리는 경제적 추론을 테스트베드로 활용하며, 이는 수학과 게임 이론에 대한 강력한 기반, 구조화된 분석적 추론에 대한 요구, 그리고 시장 설계, 자원 할당, 정책 분석과 같은 실제 응용과의 관련성을 가지고 있습니다. 우리는 Recon(Reasoning like an ECONomist)을 소개합니다. 이는 2,100개의 고품질 경제적 추론 문제로 구성된 수작업 데이터셋에 사후 훈련된 7B 파라미터의 오픈소스 LLM입니다. 경제적 추론 벤치마크와 다중 에이전트 게임에 대한 포괄적인 평가는 구조화된 추론과 경제적 합리성에서의 명확한 개선을 보여줍니다. 이러한 결과는 도메인에 맞춘 사후 훈련이 추론과 에이전트 정렬을 강화하는 데 있어 유망함을 강조하며, SFT와 RL이 모델 행동을 형성하는 데 있어 역할을 밝혀줍니다. 코드는 https://github.com/MasterZhou1/Recon 에서 확인할 수 있습니다.
이미지 편집은 컴퓨터 그래픽스, 비전, 그리고 VFX 분야에서 중요한 작업으로, 최근 확산 기반 방법들이 빠르고 고품질의 결과를 달성하고 있습니다. 그러나 비강체 변형, 객체 수정, 또는 콘텐츠 생성과 같은 상당한 구조적 변화가 필요한 편집은 여전히 어려운 과제로 남아 있습니다. 기존의 몇 단계 편집 접근법들은 관련 없는 텍스처와 같은 아티팩트를 생성하거나 원본 이미지의 주요 속성(예: 포즈)을 보존하는 데 어려움을 겪습니다. 우리는 이러한 한계를 해결하기 위해 대응 관계 인식 노이즈 보정과 보간된 어텐션 맵을 도입한 새로운 편집 프레임워크인 Cora를 소개합니다. 우리의 방법은 시맨틱 대응 관계를 통해 원본 이미지와 대상 이미지 간의 텍스처와 구조를 정렬함으로써, 필요한 경우 새로운 콘텐츠를 생성하면서도 정확한 텍스처 전달을 가능하게 합니다. Cora는 콘텐츠 생성과 보존 사이의 균형을 제어할 수 있는 기능을 제공합니다. 다양한 편집(포즈 변경, 객체 추가, 텍스처 개선 등)에 걸쳐 구조, 텍스처, 그리고 정체성을 유지하는 데 있어 Cora가 양적 및 질적으로 우수함을 광범위한 실험을 통해 입증했습니다. 사용자 연구는 Cora가 대안들을 능가하는 우수한 결과를 제공함을 확인시켜 줍니다.
대규모 언어 모델(LLM)을 기반으로 작동하는 웹 브라우징 에이전트는 인간과 유사한 방식으로 웹 브라우저를 조작하며, 다양한 일상 작업을 자동화하는 데 있어 높은 투명성을 제공한다. 웹 에이전트가 일반적인 브라우징 작업에서 점점 더 능숙해지고 있음에 따라, 중요한 질문이 제기된다: 이들이 일반적인 브라우징을 넘어 지루하고 복잡한 작업, 혹은 인간이 스스로 하기 꺼려하는 일들을 견고하게 처리할 수 있을까? 본 논문에서는 WebArena의 범위를 일반적인 브라우징에서 더 많은 노동이 요구되고 지루한 작업으로 확장하기 위해 설계된 532개의 신중하게 선별된 작업으로 구성된 새로운 완전 재현 가능한 벤치마크인 WebChoreArena를 소개한다. WebChoreArena는 세 가지 주요 도전 과제를 체계적으로 통합한다: (i) 관찰에서 대량의 정보를 정확하게 검색해야 하는 대용량 메모리 작업, (ii) 정확한 수학적 추론이 요구되는 계산 작업, (iii) 여러 웹페이지에 걸친 장기 기억이 필요한 장기 메모리 작업. 완전 재현 가능하고 널리 채택된 네 가지 WebArena 시뮬레이션 환경 위에 구축된 WebChoreArena는 엄격한 재현 가능성을 보장하며, 기존 WebArena 벤치마크와의 공정하고 직접적인 비교를 가능하게 하여 에이전트의 진전에 대한 핵심 통찰을 제공한다. 우리의 실험 결과는 GPT-4o, Claude 3.7 Sonnet, Gemini 2.5 Pro로 대표되는 LLM의 진화에 따라 WebChoreArena에서 성능의 상당한 개선이 관찰됨을 보여준다. 이러한 결과는 WebChoreArena가 최첨단 LLM의 진전을 더 명확하게 측정하는 데 적합함을 시사한다. 그러나 결과는 Gemini 2.5 Pro를 사용하더라도 WebArena와 비교했을 때 여전히 개선의 여지가 크며, 이는 WebChoreArena가 제기하는 증가된 도전 과제를 강조한다.
오늘날의 AI 시스템은 인간이 설계한 고정된 아키텍처를 가지고 있으며, 자율적이고 지속적으로 스스로를 개선할 수 없다. AI의 발전은 그 자체로 자동화될 수 있다. 이를 안전하게 수행한다면, AI 개발을 가속화하고 그 혜택을 훨씬 더 빨리 누릴 수 있을 것이다. 메타러닝은 새로운 알고리즘의 발견을 자동화할 수 있지만, 1차적 개선과 적절한 탐색 공간의 인간 설계에 의해 제한된다. 괴델 머신은 이론적으로 대안을 제안했다: 스스로를 반복적으로 개선하며 증명 가능한 방식으로 유익하게 수정하는 AI이다. 불행히도, 대부분의 변경이 순이익임을 증명하는 것은 실제로 불가능하다. 우리는 다윈 괴델 머신(DGM)을 소개한다. 이는 스스로의 코드를 반복적으로 수정하며(따라서 코드베이스를 수정하는 능력도 개선), 각 변경을 코딩 벤치마크를 통해 경험적으로 검증하는 자기 개선 시스템이다. 다윈의 진화론과 개방형 연구에서 영감을 받은 DGM은 생성된 코딩 에이전트의 아카이브를 유지한다. 이 아카이브는 아카이브에서 에이전트를 샘플링하고, 이를 기반으로 새로운 흥미로운 버전의 에이전트를 생성하기 위해 기초 모델을 사용함으로써 성장한다. 이 개방형 탐색은 다양하고 고품질의 에이전트로 구성된 성장하는 트리를 형성하며, 탐색 공간을 통해 다양한 경로를 병렬적으로 탐색할 수 있게 한다. 경험적으로, DGM은 코딩 능력을 자동으로 개선하며(예: 더 나은 코드 편집 도구, 긴 컨텍스트 창 관리, 동료 검토 메커니즘), SWE-bench에서의 성능을 20.0%에서 50.0%로, Polyglot에서의 성능을 14.2%에서 30.7%로 증가시켰다. 또한, DGM은 자기 개선이나 개방형 탐색이 없는 기준선을 크게 능가한다. 모든 실험은 안전 조치(예: 샌드박싱, 인간 감독) 하에 수행되었다. DGM은 끝없는 혁신으로 펼쳐지는 경로를 따라 스스로의 디딤돌을 모을 수 있는 자기 개선 AI로 나아가는 중요한 단계이다.
비전 언어 모델(VLMs)은 효과적인 다중 모드 추론을 수행하고 논리적으로 일관된 결정을 내릴 것으로 기대되며, 이는 다이어그램 이해 및 공간 문제 해결과 같은 작업에 매우 중요합니다. 그러나 현재 VLM 추론은 대규모이면서도 잘 구조화된 훈련 데이터셋이 부족한 상황입니다. 이러한 격차를 해소하기 위해, 우리는 최초의 대규모 합성 시각적 논리 추론 훈련 데이터인 VisualSphinx를 제안합니다. 답변을 기반으로 한 이미지 합성의 도전 과제를 해결하기 위해, 우리는 규칙에서 이미지로의 합성 파이프라인을 제안합니다. 이 파이프라인은 시드 질문에서 퍼즐 규칙을 추출하고 확장하며, 퍼즐 샘플 조립을 위한 기반 합성 이미지 합성 코드를 생성합니다. 실험 결과, VisualSphinx를 사용하여 GRPO로 훈련된 VLM은 우리 데이터셋의 논리적 일관성과 가독성으로부터 이점을 얻으며, 논리 추론 작업에서 향상된 성능을 보여줍니다. VisualSphinx에서 개발된 강화된 추론 능력은 대수 추론, 산술 추론 및 기하학적 추론과 같은 다른 추론 작업에도 유익합니다.
원치 않는 속성을 명시적으로 억제하는 네거티브 가이던스(negative guidance)는 특히 적은 샘플링 단계에서 여전히 디퓨전 모델의 근본적인 과제로 남아 있습니다. 클래스리어 프리 가이던스(Classifier-Free Guidance, CFG)는 표준 설정에서는 잘 작동하지만, 샘플링 단계가 극단적으로 압축된 경우 양성 및 음성 분기 간의 예측이 달라져 실패합니다. 우리는 L1 기반 정규화 및 개선을 통해 어텐션 공간에서 외삽(extrapolation)을 적용하는 효율적이고 학습이 필요 없는 메커니즘인 정규화 어텐션 가이던스(Normalized Attention Guidance, NAG)를 제안합니다. NAG는 CFG가 실패하는 상황에서도 효과적인 네거티브 가이던스를 복원하면서 충실도를 유지합니다. 기존 접근법과 달리, NAG는 아키텍처(UNet, DiT), 샘플링 방식(적은 단계, 다단계), 모달리티(이미지, 비디오)에 걸쳐 일반화되며, 최소한의 계산 오버헤드로 범용 플러그인으로 기능합니다. 광범위한 실험을 통해 텍스트 정렬(CLIP 점수), 충실도(FID, PFID), 인간이 인지하는 품질(ImageReward)에서 일관된 개선을 입증했습니다. 우리의 어블레이션 연구는 각 설계 요소를 검증했으며, 사용자 연구는 NAG가 가이던스한 출력에 대한 상당한 선호를 확인했습니다. 재학습이 필요 없는 모델-불특정(model-agnostic) 추론 시점 접근법으로서, NAG는 모든 현대 디퓨전 프레임워크에 손쉬운 네거티브 가이던스를 제공합니다. 부록에 의사코드가 있습니다!
디퓨전 기반 언어 모델은 병렬 및 제어 가능한 생성을 가능하게 함으로써 자기회귀(AR) 모델에 대한 강력한 대안을 제공합니다. 이 모델군 중에서 마스크드 디퓨전 모델(MDM)은 가장 강력한 성능을 달성하지만, 여전히 AR 모델에 비해 복잡도(perplexity) 측면에서 뒤처지며, 특히 KV 캐싱과 같은 주요 추론 시간 효율성 기능이 부족합니다. 본 연구에서는 AR과 MDM 패러다임을 융합한 새로운 모델군인 Eso-LMs를 소개합니다. 이 모델은 각 패러다임의 한계를 극복하면서도 복잡도를 부드럽게 보간할 수 있습니다. Eso-LMs는 표준 언어 모델링 벤치마크에서 새로운 최첨단 성능을 달성했습니다. 특히, 우리는 **MDM에 KV 캐싱을 도입한 최초의 연구**로서 병렬 생성을 유지하면서 추론 효율성을 크게 개선했습니다. 최적화된 샘플링 스케줄과 결합하여, 우리의 방법은 표준 MDM보다 최대 **65배**, 기존의 반-자기회귀 접근법보다 **4배** 더 빠른 추론 속도를 달성했습니다. 코드와 모델 체크포인트는 프로젝트 페이지에서 제공됩니다: [http://s-sahoo.github.io/Eso-LMs](http://s-sahoo.github.io/Eso-LMs)
Open Whisper 스타일 음성 모델(OWSM) 프로젝트는 학술적 규모의 자원을 사용하여 완전히 오픈된 음성 기반 모델 시리즈를 개발했지만, 여전히 훈련 데이터가 부족한 상황입니다. 본 연구는 Creative Commons 라이선스를 가진 대규모 웹 크롤링 데이터셋인 YODAS를 통합하여 OWSM을 개선합니다. 그러나 YODAS를 통합하는 것은 간단하지 않은데, 이는 잘못된 언어 라벨링과 오디오-텍스트 불일치와 같은 문제를 야기하는 데이터셋의 비정형적 특성 때문입니다. 이를 해결하기 위해, 우리는 공개 툴킷을 사용하여 확장 가능한 데이터 정제 파이프라인을 개발하였고, 이를 통해 75개 언어에 걸쳐 166,000시간의 음성 데이터셋을 구축했습니다. 이 정제된 데이터셋과 기존 OWSM 데이터를 함께 사용하여 훈련한 새로운 OWSM v4 모델 시리즈는 다국어 벤치마크에서 이전 버전을 크게 능가하는 성능을 보였습니다. 우리의 모델은 여러 시나리오에서 Whisper 및 MMS와 같은 최첨단 산업용 모델과도 견줄 만하거나 이를 능가하는 성능을 보입니다. 우리는 정제된 YODAS 데이터, 사전 훈련된 모델, 그리고 관련된 모든 스크립트를 ESPnet 툴킷을 통해 공개할 예정입니다.
기존 연구에서는 멀티모달 대형 언어 모델(MLLM)을 비디오로 해석하여 3D 장면 이해에 적용하는 방법을 탐구해왔다. 이러한 접근법은 일반적으로 포인트 클라우드나 재구성된 조감도(BEV) 맵과 같은 포괄적인 3D 데이터 입력에 의존한다. 본 연구에서는 추가적인 3D 입력 없이 비디오 데이터로부터 직접 3D 공간을 이해하고 추론하는 MLLM의 능력을 향상시켜 이 분야를 발전시켰다. 우리는 비디오-3D 기하학 대형 언어 모델(VG LLM)이라는 새로운 효율적인 방법을 제안한다. 이 접근법은 비디오 시퀀스로부터 3D 사전 정보를 추출하는 3D 시각 기하학 인코더를 사용한다. 이 정보는 시각 토큰과 통합되어 MLLM에 입력된다. 광범위한 실험을 통해 우리의 방법이 비디오 소스로부터 직접 학습된 3D 장면 이해 및 공간 추론과 관련된 다양한 작업에서 상당한 개선을 달성했음을 확인했다. 특히, 명시적인 3D 데이터 입력에 의존하지 않는 우리의 4B 모델은 기존의 최신 방법들과 비교하여 경쟁력 있는 결과를 보였으며, VSI-Bench 평가에서 Gemini-1.5-Pro를 능가하는 성과를 거두었다.
최근 생성형 인공지능(Generative AI)과 대형 언어 모델(Large Language Models, LLMs)의 발전으로 인해 매우 사실적인 합성 콘텐츠 생성이 가능해졌으며, 이는 허위 정보와 조작과 같은 악의적 사용 가능성에 대한 우려를 불러일으키고 있다. 또한, 기계 생성 텍스트(Machine-Generated Text, MGT)를 탐지하는 것은 실세계 시나리오에 대한 일반화를 평가할 수 있는 강력한 벤치마크의 부재로 인해 여전히 어려운 과제로 남아 있다. 본 연구에서는 최신 MGT 탐지기(예: Mage, Radar, LLM-DetectAIve)가 언어학적으로 고안된 적대적 공격에 대해 얼마나 견고한지를 테스트하기 위한 파이프라인을 제시한다. 탐지기를 더욱 도전적으로 만들기 위해, 직접 선호 최적화(Direct Preference Optimization, DPO)를 사용하여 언어 모델을 미세 조정하여 MGT 스타일을 인간 작성 텍스트(Human-Written Text, HWT)에 가깝게 전환한다. 이는 탐지기가 스타일적 단서에 의존하는 특성을 이용하여 새로운 생성물을 탐지하기 더욱 어렵게 만든다. 또한, 정렬 과정에서 유도된 언어적 변화와 탐지기가 MGT 텍스트를 탐지하기 위해 사용하는 특징을 분석한다. 우리의 실험 결과는 탐지기가 상대적으로 적은 수의 예시로도 쉽게 속아 탐지 성능이 크게 저하될 수 있음을 보여준다. 이는 탐지 방법을 개선하고, 보이지 않는 도메인 내 텍스트에 대해 견고하게 만드는 것의 중요성을 강조한다.
검증 가능한 보상(RLVR)을 통한 강화 학습으로 훈련된 대규모 언어 모델(LLMs)은 소프트웨어 프로그래밍 및 수학 문제와 같이 명시적이고 자동화 가능한 검증이 필요한 작업에서 획기적인 성과를 달성했습니다. 그러나 RLVR을 전자 설계 자동화(EDA), 특히 자연어(NL) 명세서로부터 Verilog와 같은 하드웨어 기술 언어(HDLs)를 자동으로 생성하는 작업으로 확장하는 데는 세 가지 주요 과제가 있습니다: 자동화되고 정확한 검증 환경의 부재, 고품질 NL-코드 쌍의 희소성, 그리고 RLVR의 과도한 계산 비용이 그것입니다. 이를 위해 우리는 Verilog 생성 LLMs를 훈련하기 위한 RLVR 프레임워크인 CodeV-R1을 소개합니다. 먼저, 우리는 골든 레퍼런스에 대해 강력한 등가 검사를 수행하는 규칙 기반 테스트벤치 생성기를 개발했습니다. 둘째, 오픈소스 Verilog 스니펫을 LLM이 생성한 NL 설명과 짝짓고, 생성된 테스트벤치를 통해 코드-NL-코드 일관성을 검증하며, 등가하지 않는 예제를 걸러내어 고품질 데이터셋을 생성하는 라운드트립 데이터 합성 방법을 제안합니다. 셋째, 우리는 두 단계의 "증류 후 RL" 훈련 파이프라인을 사용합니다: 추론 능력의 콜드 스타트를 위한 증류 단계와, 샘플링 비율을 적응적으로 조정하여 훈련 비용을 줄일 수 있는 우리의 새로운 RLVR 알고리즘인 적응형 DAPO 단계입니다. 결과적으로 나온 모델인 CodeV-R1-7B는 VerilogEval v2와 RTLLM v1.1에서 각각 68.6%와 72.9%의 pass@1을 달성하며, 이전 최첨단 모델을 12~20% 앞서는 동시에 671B DeepSeek-R1의 성능을 따라가거나 오히려 능가합니다. 우리는 EDA 및 LLM 커뮤니티의 연구를 촉진하기 위해 모델, 훈련 파이프라인, 그리고 데이터셋을 공개할 예정입니다.
오픈 벤치마크는 대규모 언어 모델을 평가하고 발전시키는 데 필수적이며, 재현성과 투명성을 제공합니다. 그러나 이러한 접근성은 테스트 세트 오염의 표적이 될 가능성을 높입니다. 본 연구에서는 DyePack이라는 프레임워크를 소개합니다. 이 프레임워크는 백도어 공격을 활용하여 모델의 손실, 로짓 또는 내부 세부 정보에 접근하지 않고도 훈련 중에 벤치마크 테스트 세트를 사용한 모델을 식별합니다. 은행이 강도들을 표시하기 위해 돈과 함께 염색 팩을 섞는 것처럼, DyePack은 테스트 데이터와 함께 백도어 샘플을 섞어 이를 훈련한 모델을 표시합니다. 우리는 확률적 타겟을 가진 다중 백도어를 통합한 원칙적인 설계를 제안하며, 이를 통해 모든 모델을 표시할 때 정확한 오탐률(FPR) 계산이 가능합니다. 이는 잘못된 고발을 방지하면서도 모든 오염 사례에 대한 강력한 증거를 제공합니다. 우리는 DyePack을 세 가지 데이터셋에 걸친 다섯 개의 모델에서 평가하며, 객관식 및 자유형 생성 작업을 모두 다룹니다. 객관식 질문의 경우, MMLU-Pro에서는 0.000073%, Big-Bench-Hard에서는 0.000017%의 보장된 오탐률로 모든 오염된 모델을 성공적으로 탐지합니다. 자유형 생성 작업의 경우, Alpaca에서 0.127%의 보장된 오탐률로 모든 오염된 모델을 잘 일반화하여 식별합니다.
토큰화 효율성은 대규모 언어 모델(LLM)의 성능과 비용에 있어 중요한 역할을 합니다. 그러나 대부분의 모델은 일반적인 목적의 코퍼스에 최적화된 정적 토크나이저에 의존하고 있습니다. 이러한 토크나이저의 고정된 어휘집은 도메인 특정 또는 언어 특정 입력에 적응하지 못해 더 긴 토큰 시퀀스와 더 높은 계산 비용을 초래하는 경우가 많습니다. 우리는 zip2zip이라는 프레임워크를 소개합니다. 이 프레임워크는 LLM이 추론 시점에 토큰 어휘를 동적으로 조정할 수 있게 하여 생성되는 토큰 수를 줄이고, 결과적으로 더 빠른 추론을 가능하게 합니다. zip2zip은 세 가지 주요 구성 요소로 이루어져 있습니다: (1) Lempel-Ziv-Welch(LZW) 압축 기반의 토크나이저로, 토큰을 실시간으로 재사용 가능한 "하이퍼토큰"으로 점진적으로 압축합니다; (2) 런타임에 새로 형성된 하이퍼토큰에 대한 임베딩을 계산하는 임베딩 레이어; 그리고 (3) 하이퍼토큰화된 압축 시퀀스에서 작동하도록 모델을 학습시키는 인과적 언어 모델링 변형입니다. 우리는 기존의 LLM이 파라미터 효율적인 파인튜닝을 통해 10 GPU-시간 내에 zip2zip으로 변환될 수 있음을 보여줍니다. 결과적으로 zip2zip LLM은 추론 시점에 하이퍼토큰을 효과적으로 사용하는 법을 배워, 입력 및 출력 시퀀스 길이를 20-60\% 줄이고, 추론 지연 시간에서 상당한 개선을 달성합니다.
작업 지향 대화 시스템은 사용자 발화가 의미론적으로 완전해 보이지만 적절한 시스템 동작을 위한 필수 구조적 정보가 부족할 때 종종 어려움을 겪습니다. 이는 사용자가 자신의 필요를 완전히 이해하지 못하는 반면, 시스템은 정확한 의도 정의를 요구하기 때문에 발생합니다. 현재의 LLM 기반 에이전트는 언어적으로 완전한 표현과 맥락적으로 트리거 가능한 표현을 효과적으로 구분하지 못하며, 협력적 의도 형성을 위한 프레임워크가 부족합니다. 우리는 STORM을 제안합니다. STORM은 UserLLM(내부 전체 접근)과 AgentLLM(관찰 가능한 행동만) 간의 대화를 통해 비대칭 정보 역학을 모델링하는 프레임워크입니다. STORM은 표현 궤적과 잠재적 인지 전환을 포착한 주석이 달린 코퍼스를 생성하여 협력적 이해 발전의 체계적인 분석을 가능하게 합니다. 우리의 기여는 다음과 같습니다: (1) 대화 시스템에서의 비대칭 정보 처리 공식화; (2) 협력적 이해 진화를 추적하는 의도 형성 모델링; (3) 작업 성능과 함께 내부 인지 개선을 측정하는 평가 지표. 네 가지 언어 모델에 걸친 실험은 특정 시나리오에서 중간 정도의 불확실성(40-60%)이 완전한 투명성을 능가할 수 있음을 보여주며, 모델별 패턴은 인간-AI 협업에서 최적의 정보 완전성에 대한 재고를 제안합니다. 이러한 발견은 비대칭 추론 역학을 이해하는 데 기여하며, 불확실성 보정 대화 시스템 설계에 정보를 제공합니다.
모델 디스틸레이션은 더 큰 시스템의 기능을 유지하면서 배포 가능한 소형 언어 모델을 생성하는 데 필수적인 기술이 되었습니다. 그러나 광범위한 배포는 적대적 조작에 대한 내성 문제를 제기합니다. 본 논문은 훈련 중 편향된 콘텐츠를 적대적으로 주입할 때 디스틸레이션된 모델의 취약성을 조사합니다. 우리는 적대자가 최소한의 데이터 중독을 통해 교사 모델에 미묘한 편향을 주입할 수 있으며, 이 편향이 학생 모델로 전파되어 상당히 증폭된다는 것을 입증합니다. 우리는 두 가지 전파 모드를 제안합니다: 다중 작업에 영향을 미치는 비표적 전파와 특정 작업에 초점을 맞추면서 다른 곳에서는 정상적인 행동을 유지하는 표적 전파입니다. 단 25개의 중독된 샘플(0.25% 중독률)만으로도 학생 모델은 표적 시나리오에서 76.9%의 편향된 응답을 생성하며, 이는 교사 모델의 69.4%보다 높습니다. 비표적 전파의 경우, 학생 모델에서 적대적 편향은 보이지 않는 작업에서 6배에서 29배 더 자주 나타납니다. 우리는 여섯 가지 편향 유형(표적 광고, 피싱 링크, 내러티브 조작, 불안전한 코딩 관행), 다양한 디스틸레이션 방법, 그리고 텍스트와 코드 생성에 걸친 다양한 모달리티에서 이러한 발견을 검증합니다. 우리의 평가는 현재의 방어 메커니즘(당혹도 필터링, 편향 탐지 시스템, LLM 기반 자동 평가 프레임워크)이 이러한 공격에 대해 부족함을 드러냅니다. 결과는 디스틸레이션된 모델의 상당한 보안 취약성을 노출하며, 특수한 보호 장치의 필요성을 강조합니다. 우리는 효과적인 적대적 편향 완화 전략을 구축하기 위한 실용적인 설계 원칙을 제안합니다.
비디오 이상 현상 이해(VAU)는 스마트 시티, 보안 감시, 재난 경보 시스템과 같은 응용 분야에서 필수적이지만, 세밀한 시공간적 인지와 모호한 상황에서의 강건한 추론을 요구하기 때문에 여전히 도전적인 과제로 남아 있습니다. 이상 탐지 분야의 발전에도 불구하고, 기존 방법들은 종종 해석 가능성이 부족하고 비정상적 사건의 인과적 및 맥락적 측면을 포착하는 데 어려움을 겪습니다. 이러한 한계는 이상 시나리오에서의 추론 능력을 평가하기 위한 포괄적인 벤치마크의 부재로 인해 더욱 심화됩니다. 이러한 두 가지 문제를 해결하기 위해, 우리는 다중 모드 대형 언어 모델(MLLMs)을 기반으로 한 데이터 효율적인 프레임워크인 VAU-R1을 소개합니다. 이 프레임워크는 강화 미세 조정(RFT)을 통해 이상 현상 추론을 강화합니다. 또한, 우리는 비디오 이상 현상 추론을 위해 특별히 설계된 최초의 사고 사슬(Chain-of-Thought) 벤치마크인 VAU-Bench를 제안합니다. 이 벤치마크는 객관식 질문과 답변, 상세한 근거, 시간적 주석, 그리고 설명적인 캡션을 포함합니다. 실험 결과는 VAU-R1이 다양한 맥락에서 질문 응답 정확도, 시간적 근거, 그리고 추론 일관성을 크게 향상시킴을 보여줍니다. 우리의 방법과 벤치마크는 해석 가능하고 추론을 고려한 비디오 이상 현상 이해를 위한 강력한 기반을 마련합니다. 우리의 코드는 https://github.com/GVCLab/VAU-R1에서 확인할 수 있습니다.
유해 언어를 비유해 텍스트로 재작성하는 작업인 디톡시피케이션은 온라인상의 유해 콘텐츠가 증가함에 따라 점점 더 중요해지고 있다. 그러나 특히 혐오 발언에 대한 디톡시피케이션을 위한 고품질 병렬 데이터셋은 인간 주석의 비용과 민감성으로 인해 여전히 부족한 실정이다. 본 논문에서는 GPT-4o-mini를 활용한 새로운 LLM-in-the-loop 파이프라인을 제안하여 자동화된 디톡시피케이션을 수행한다. 먼저, ParaDetox 파이프라인을 인간 주석자 대신 LLM으로 대체하여 복제하고, LLM이 인간 주석과 비슷한 성능을 보임을 확인한다. 이를 바탕으로, 혐오 발언 디톡시피케이션을 위한 대규모 병렬 데이터셋인 PARADEHATE를 구축한다. 8,000개 이상의 혐오/비혐오 텍스트 쌍으로 구성된 PARADEHATE를 벤치마크로 공개하고, 다양한 베이스라인 방법을 평가한다. 실험 결과, PARADEHATE로 미세 조정된 BART와 같은 모델들이 스타일 정확도, 콘텐츠 보존, 유창성 측면에서 더 나은 성능을 달성함으로써, LLM이 생성한 디톡시피케이션 텍스트가 인간 주석의 확장 가능한 대안으로서 효과적임을 입증한다.
검색 강화 생성(Retrieval-Augmented Generation, RAG)은 답변의 최신성과 사실성을 향상시킵니다. 그러나 기존 평가는 이러한 시스템이 실제 세계의 노이즈, 내부 및 외부 검색 컨텍스트 간의 충돌, 또는 빠르게 변화하는 사실에 얼마나 잘 대처하는지를 거의 테스트하지 않습니다. 우리는 동적이고 시간에 민감한 코퍼스에 대한 질의 및 문서 변형을 통합적으로 스트레스 테스트하는 통합 프레임워크 및 대규모 벤치마크인 검색 인식 강건성 평가(Retrieval-Aware Robustness Evaluation, RARE)를 소개합니다. RARE의 핵심 기능 중 하나는 맞춤형 코퍼스에서 단일 및 다중 홉 관계를 자동으로 추출하고 수동 개입 없이 다중 수준 질문 세트를 생성하는 지식 그래프 기반 합성 파이프라인(RARE-Get)입니다. 이 파이프라인을 활용하여, 우리는 400개의 전문가 수준의 시간에 민감한 금융, 경제 및 정책 문서와 48,322개의 질문으로 구성된 데이터셋(RARE-Set)을 구축했습니다. 이 데이터셋의 분포는 기반 소스가 변화함에 따라 진화합니다. 강건성을 정량화하기 위해, 우리는 질의, 문서 또는 실제 검색 결과가 체계적으로 변경될 때 모델이 정확성을 유지하거나 복구하는 능력을 포착하는 검색 조건 강건성 메트릭(RARE-Met)을 공식화했습니다. 우리의 결과는 RAG 시스템이 변형에 대해 놀라울 정도로 취약하며, 문서 강건성이 생성기 크기나 아키텍처에 관계없이 일관되게 가장 약한 부분임을 보여줍니다. RAG 시스템은 모든 도메인에서 단일 홉 질문보다 다중 홉 질문에서 더 낮은 강건성을 보입니다.
대규모 언어 모델(LLMs)은 단일 답변 객관식 문제에 대한 평가가 점점 더 이루어지고 있지만, 많은 실제 문제에서는 주어진 옵션 중 모든 정답을 식별해야 합니다. 이러한 능력은 아직 충분히 탐구되지 않았습니다. 우리는 다양한 도메인(독해, 법률, 생물의학 등)에서 '모두 고르시오'(Select All That Apply, SATA) 질문에 대한 LLMs 평가를 위한 첫 번째 전용 벤치마크인 SATA-BENCH를 소개합니다. 27개의 오픈소스 및 상용 모델을 평가한 결과, 심지어 가장 강력한 모델도 정확히 일치하는 답변을 41.8%만 제공하여 LLMs가 모든 정답을 신뢰할 수 있게 식별하지 못한다는 심각한 격차가 드러났습니다. 이 약점은 두 가지 핵심 문제에서 비롯됩니다: 선택 편향(모델이 내용과 관계없이 특정 선택지를 선호함)과 개수 편향(모델이 정답의 수를 정확히 예측하지 못함). 이러한 문제를 해결하기 위해, 우리는 토큰 편향 제거와 적응형 임계값 설정을 결합하여 모델이 완전하고 정확한 선택을 하도록 유도하는 디코딩 전략인 Choice Funnel을 제안합니다. Choice Funnel은 경쟁력 있는 베이스라인 대비 최대 29% 더 높은 정확도 일치를 달성하면서 추론 비용을 64% 이상 절감합니다. 우리의 연구 결과는 현재 LLMs의 근본적인 한계를 드러내고, 다중 답변 추론을 진단하고 개선하기 위한 새로운 프레임워크를 제시합니다. 우리는 SATA-BENCH와 Choice Funnel을 공개하여 현실적인 다중 답변 애플리케이션에서 견고한 의사결정을 위한 LLM 개발을 촉진하고자 합니다.
텍스트 기반 3D 편집은 의미적으로 관련된 로컬 3D 영역을 정밀하게 편집하는 것을 목표로 하며, 3D 게임부터 영화 제작에 이르기까지 다양한 실용적인 응용 분야에서 상당한 잠재력을 가지고 있습니다. 기존 방법들은 일반적으로 뷰-무차별적 패러다임을 따릅니다: 2D 뷰를 무차별적으로 편집한 후 이를 3D 공간으로 다시 투영합니다. 그러나 이러한 방법들은 서로 다른 뷰 간의 상호 의존성을 간과하여 일관되지 않은 다중 뷰 편집을 초래합니다. 본 연구에서는 이상적인 일관된 3D 편집이 점진적 뷰 패러다임을 통해 달성될 수 있다고 주장합니다. 이 패러다임은 편집-중요 뷰에서 편집-희소 뷰로 편집 의미를 전파합니다. 구체적으로, 우리는 Primary-view Sampler, Key-view Render, Full-view Refiner를 주요 구성 요소로 하는 새로운 프레임워크인 Pro3D-Editor를 제안합니다. Primary-view Sampler는 가장 편집-중요 뷰를 동적으로 샘플링하고 편집하여 기본 뷰로 설정합니다. Key-view Render는 Mixture-of-View-Experts Low-Rank Adaption (MoVE-LoRA)을 통해 기본 뷰에서 다른 키 뷰로 편집 의미를 정확하게 전파합니다. Full-view Refiner는 편집된 다중 뷰를 기반으로 3D 객체를 편집하고 정제합니다. 광범위한 실험을 통해 우리의 방법이 편집 정확도와 공간적 일관성에서 기존 방법들을 능가함을 입증했습니다.
계산 비용의 증가와 제한된 자원은 미리 정해진 반복 횟수 예산 내에서 최적의 학습을 달성하고자 하는 예산 제한 반복 학습의 중요성을 강조합니다. 학습률 스케줄은 특히 예산 제한 반복 시나리오에서 다양한 네트워크와 작업의 성능을 근본적으로 좌우하지만, 그 설계는 여전히 경험적이며 이론적 기반이 부족합니다. 또한, 최적의 학습률 스케줄은 광범위한 시행착오를 통해 선택해야 하므로 학습 과정이 비효율적입니다. 본 연구에서는 다양한 아키텍처와 작업에서 제한된 학습 예산 하에서 일반적으로 사용되는 스케줄을 일관되게 능가하는 이론적 근거를 가진 통합 예산 인식(UBA) 스케줄을 제안합니다. 먼저, 우리는 풍경 곡률 변화에 대한 강건성을 명시적으로 고려하는 새로운 학습 예산 인식 최적화 프레임워크를 구축하여 이 간극을 메웁니다. 이 프레임워크에서 우리는 유연성과 단순성 사이의 균형을 제공하는 단일 하이퍼파라미터 varphi에 의해 제어되는 UBA 스케줄을 도출하며, 이는 네트워크별 수치 최적화의 필요성을 없앱니다. 더 나아가, 우리는 varphi와 조건수 사이의 이론적 연결을 확립하여 우리의 접근 방식에 대한 해석과 정당성을 부여합니다. 또한, 우리는 다양한 varphi 값에 대한 수렴성을 증명하고, 이론적 분석과 실험 결과를 통해 이를 선택하기 위한 실용적인 지침을 제공합니다. 광범위한 실험 결과는 UBA가 다양한 비전 및 언어 작업에서, ResNet, OLMo와 같은 네트워크 아키텍처와 규모에 걸쳐, 다양한 학습 반복 예산 하에서 일반적으로 사용되는 스케줄을 일관되게 능가함을 보여줍니다.
본 논문은 아랍어 언어 모델 평가에서의 중요한 공백을 해소하기 위해 포괄적인 이론적 지침을 수립하고 새로운 평가 프레임워크를 소개한다. 먼저, 기존의 아랍어 평가 데이터셋을 분석하여 언어적 정확성, 문화적 정렬, 방법론적 엄밀성에서의 중대한 문제점을 확인하였다. 이러한 제한 사항을 해결하기 위해, 우리는 10개의 주요 도메인(42개의 하위 도메인, 그림 1 참조)에 걸친 490개의 도전적인 질문으로 구성된 아랍어 심층 미니 데이터셋(Arabic Depth Mini Dataset, ADMD)을 제시한다. ADMD를 사용하여 GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B, Qwen-Max 등 5개의 주요 언어 모델을 평가하였다. 평가 결과, 모델 성능은 도메인에 따라 상당한 차이를 보였으며, 특히 깊은 문화적 이해와 전문 지식을 요구하는 영역에서 어려움이 나타났다. Claude 3.5 Sonnet은 전체적으로 30%의 가장 높은 정확도를 보였으며, 아랍어 수학 이론, 아랍어 언어, 이슬람 도메인에서 상대적인 강점을 나타냈다. 이 연구는 아랍어 언어 모델 평가를 개선하기 위한 이론적 기반과 실질적인 통찰을 제공하며, 기술적 역량과 함께 문화적 역량의 중요성을 강조한다.
본 논문은 아랍어 언어 모델 평가에서의 중요한 공백을 해소하기 위해 포괄적인 이론적 지침을 수립하고 새로운 평가 프레임워크를 소개한다. 먼저, 기존의 아랍어 평가 데이터셋을 분석하여 언어적 정확성, 문화적 정렬, 방법론적 엄밀성에서의 중대한 문제점을 확인하였다. 이러한 제한 사항을 해결하기 위해, 우리는 10개의 주요 도메인(42개의 하위 도메인, 그림 1 참조)에 걸친 490개의 도전적인 질문으로 구성된 아랍어 심층 미니 데이터셋(Arabic Depth Mini Dataset, ADMD)을 제시한다. ADMD를 사용하여 GPT-4, Claude 3.5 Sonnet, Gemini Flash 1.5, CommandR 100B, Qwen-Max 등 5개의 주요 언어 모델을 평가하였다. 평가 결과, 모델 성능은 도메인에 따라 상당한 차이를 보였으며, 특히 깊은 문화적 이해와 전문 지식을 요구하는 영역에서 어려움이 나타났다. Claude 3.5 Sonnet은 전체적으로 30%의 가장 높은 정확도를 보였으며, 아랍어 수학 이론, 아랍어 언어, 이슬람 도메인에서 상대적인 강점을 나타냈다. 이 연구는 아랍어 언어 모델 평가를 개선하기 위한 이론적 기반과 실질적인 통찰을 제공하며, 기술적 역량과 함께 문화적 역량의 중요성을 강조한다.
복잡하고 새로운 객체 배치를 포함하는 텍스트에서 이미지를 생성하는 것은 현재의 텍스트-이미지(T2I) 모델들에게 여전히 큰 도전 과제로 남아 있습니다. 이전의 레이아웃 기반 방법들은 2D 레이아웃을 사용하여 공간적 제약을 통해 객체 배치를 개선했지만, 3D 위치 파악에는 어려움을 겪으며 품질과 일관성을 희생하는 경우가 많았습니다. 본 연구에서는 기존 T2I 모델을 재학습하지 않고도 구성적 이미지 생성을 개선하기 위한 새로운 프레임워크인 ComposeAnything을 소개합니다. 우리의 접근 방식은 먼저 대형 언어 모델(LLM)의 사고 연쇄 추론 능력을 활용하여 텍스트로부터 2.5D 의미론적 레이아웃을 생성합니다. 이 레이아웃은 깊이 정보와 상세한 캡션으로 보강된 2D 객체 경계 상자로 구성됩니다. 이 레이아웃을 기반으로, 의도된 구성을 포착하는 공간 및 깊이 인식의 거친 객체 합성을 생성하여, 확산 기반 T2I 모델에서의 확률적 노이즈 초기화를 대체하는 강력하고 해석 가능한 사전 정보로 사용합니다. 이 사전 정보는 객체 사전 강화와 공간 제어 노이즈 제거를 통해 노이즈 제거 과정을 안내하여, 구성적 객체와 일관된 배경을 원활하게 생성할 수 있게 하며, 부정확한 사전 정보를 개선할 수 있도록 합니다. ComposeAnything은 2D/3D 공간 배치, 높은 객체 수, 초현실적 구성을 포함하는 프롬프트에 대해 T2I-CompBench 및 NSR-1K 벤치마크에서 최신 방법들을 능가합니다. 인간 평가를 통해 우리 모델이 텍스트를 충실히 반영하는 구성으로 고품질 이미지를 생성한다는 것을 추가로 입증하였습니다.
본 논문에서는 화자의 다중모달 입력을 조건으로 하여 동기화된 언어적 및 비언어적 청자 피드백을 온라인으로 생성하는 새로운 과제인 온라인 다중모달 대화 응답 생성(Online Multimodal Conversational Response Generation, OMCRG)을 소개한다. OMCRG는 자연스러운 이인간 상호작용을 반영하며, 생성된 청자의 음성과 얼굴 반응 간의 동기화를 달성하는 데 있어 새로운 도전 과제를 제시한다. 이러한 도전 과제를 해결하기 위해, 본 연구에서는 음성과 얼굴 반응을 연결하는 중간 모달리티로서 텍스트를 혁신적으로 도입한다. 이를 바탕으로, 다중모달 대형 언어 모델(Multimodal Large Language Model, MLLM)인 OmniResponse를 제안한다. OmniResponse는 고품질의 다중모달 청자 응답을 자동회귀적으로 생성하며, 두 가지 새로운 구성 요소로 강화된 사전 학습된 LLM을 활용한다: 생성된 텍스트 토큰을 시간적으로 고정하는 Chrono-Text와 얼굴 반응과 동기화된 음성을 생성하는 제어 가능한 온라인 TTS 모듈인 TempoVoice가 그것이다. OMCRG 연구를 더욱 지원하기 위해, 본 연구에서는 동기화된 분할 화면 비디오, 다채널 오디오, 대본 및 얼굴 행동 주석을 포함한 696개의 고품질 이인간 상호작용으로 구성된 새로운 데이터셋인 ResponseNet을 제시한다. ResponseNet에 대해 수행된 포괄적인 평가 결과, OmniResponse는 의미론적 음성 내용, 오디오-비주얼 동기화 및 생성 품질 측면에서 기준 모델들을 크게 능가하는 것으로 나타났다.
대규모 언어 모델(LLMs)은 복잡한 추론 작업에서 놀라운 성과를 거두었지만, 그들의 추론 과정은 여전히 계산적으로 비효율적입니다. 우리는 많은 주요 LLMs에서 공통적으로 관찰되는 실패 모드인 '과도한 사고(overthinking)'를 발견했습니다. 이는 모델이 단순한 질문에도 불구하고 장황하고 관련 없는 추론 과정을 생성하는 현상을 말합니다. 최근 연구에서는 이를 완화하기 위해 고정된 토큰 예산을 강제하는 방법을 시도했지만, 이는 특히 더 어려운 문제에서 '사고 부족(underthinking)'을 초래할 수 있습니다. 실증적 분석을 통해 우리는 이러한 비효율성이 종종 불명확한 문제 해결 전략에서 비롯된다는 것을 확인했습니다. 이를 공식화하기 위해, 우리는 베이지안 예산 할당 모델(BBAM)이라는 이론적 모델을 개발했습니다. 이 모델은 추론을 다양한 불확실성을 가진 하위 질문의 연속으로 모델링하며, 정확성과 계산 효율성 간의 균형을 포착하기 위해 E^3 지표를 도입했습니다. BBAM의 이론적 결과를 바탕으로, 우리는 복잡한 질문을 하위 질문으로 분해하고 적응형 스케줄링을 사용하여 예상 복잡도에 기반해 토큰 예산을 할당하는 모델-불가지론적 테스트-타임 프레임워크인 Plan-and-Budget을 제안합니다. Plan-and-Budget은 다양한 작업과 모델에서 추론 효율성을 개선하며, 최대 +70%의 정확도 향상, -39%의 토큰 감소, 그리고 E^3에서 +187.5%의 개선을 달성했습니다. 특히, 이는 더 작은 모델(DS-Qwen-32B)을 더 큰 모델(DS-LLaMA-70B)의 효율성과 동등하게 끌어올려, Plan-and-Budget이 재학습 없이도 성능 격차를 해소할 수 있음을 보여줍니다. 우리의 코드는 anonymous.4open.science/r/P-and-B-6513/에서 확인할 수 있습니다.
여러 연구에서 대규모 언어 모델(LLM)의 코딩 작업 메커니즘을 탐구했지만, 대부분은 단일 언어 환경에서의 프로그래밍 언어(PL)에 초점을 맞추었습니다. 본 논문에서는 LLM의 개념 공간에서 여러 PL과 영어 간의 관계를 조사합니다. 우리는 두 개의 Llama 기반 모델을 사용하여 21개의 PL 쌍에 대해 소수 샷(few-shot) 번역 작업을 수행합니다. 이 작업 중 중간 레이어의 임베딩을 디코딩함으로써, 개념 공간이 영어(PL 키워드 포함)에 더 가깝고 중간 레이어의 후반부에서 영어 토큰에 높은 확률을 할당한다는 것을 관찰합니다. 우리는 11개의 PL과 영어에 대한 뉴런 활성화를 분석하여, 언어별 뉴런이 주로 하위 레이어에 집중되어 있는 반면, 각 PL에 독점적인 뉴런은 상위 레이어에 나타나는 경향이 있음을 발견했습니다. 여러 다른 PL과 높은 정렬을 보이는 PL의 경우, 언어별 뉴런을 식별하는 것은 불가능합니다. 이러한 PL은 다른 PL보다 더 큰 키워드 집합을 가지고 있으며, 번역 작업에서 입력/출력 PL에 관계없이 모델의 개념 공간에 더 가깝습니다. 우리의 연구 결과는 LLM이 내부적으로 PL을 어떻게 표현하는지에 대한 통찰을 제공하며, 모델의 개념 공간에서 구조적 패턴을 밝혀냅니다. 코드는 https://github.com/cisnlp/code-specific-neurons에서 확인할 수 있습니다.
우리는 웹 검색이 상충되거나 노이즈가 많거나 도움이 되지 않는 결과를 내놓는 사실 탐구 질문에 대해 SEarch-Augmented Language 모델을 평가하기 위한 새로운 도전 벤치마크인 SealQA를 소개합니다. SealQA는 세 가지 버전으로 제공됩니다: (1) Seal-0(메인)과 (2) Seal-Hard는 사실적 정확성과 추론 능력을 평가하며, Seal-0는 채팅 모델(예: GPT-4.1)이 일반적으로 거의 0에 가까운 정확도를 보이는 가장 어려운 질문에 초점을 맞춥니다; 그리고 (3) LongSeal은 SealQA를 확장하여 "건초 더미 속 바늘 찾기" 설정에서 장문의 다중 문서 추론 능력을 테스트합니다. 우리의 평가는 현재 모델의 중요한 한계를 드러냅니다: 최첨단 LLM조차도 모든 SealQA 버전에서 낮은 성능을 보입니다. Seal-0에서는 o3 및 o4-mini와 같은 도구를 장착한 최첨단 에이전트 모델이 최선의 추론 노력에도 불구하고 각각 17.1%와 6.3%의 정확도만 달성합니다. 우리는 DeepSeek-R1-671B 및 o3-mini와 같은 고급 추론 모델이 노이즈가 많은 검색 결과에 매우 취약하다는 것을 발견했습니다. 특히, o3-mini, o4-mini, o3에서 테스트 시간 계산량을 늘려도 신뢰할 만한 성능 향상을 얻지 못하며, 성능이 초기에 정체되거나 심지어 감소하는 경우가 많습니다. 또한, 최근 모델들은 "중간에서 길을 잃는" 문제에 덜 영향을 받지만, LongSeal에서 수많은 방해 요소가 있을 때 관련 문서를 신뢰할 수 있게 식별하지 못합니다. 향후 연구를 촉진하기 위해, 우리는 SealQA를 huggingface.co/datasets/vtllms/sealqa에서 공개합니다.
대형 언어 모델(LLMs)이 최근 예측 작업에 적용되면서, 일부 연구에서는 이러한 시스템이 인간의 성능을 능가하거나 동등하다고 주장하고 있습니다. 본 논문에서는 이러한 결론에 대해 커뮤니티로서 신중해야 한다고 주장합니다. 왜냐하면 LLM 예측 시스템을 평가하는 데는 독특한 도전 과제들이 존재하기 때문입니다. 우리는 두 가지 주요 문제 범주를 식별합니다: (1) 다양한 형태의 시간적 누출(temporal leakage)로 인해 평가 결과를 신뢰하기 어려운 점, 그리고 (2) 평가 성능을 실제 세계의 예측으로 외삽하기 어려운 점. 선행 연구의 체계적인 분석과 구체적인 예시를 통해, 평가의 결함이 현재와 미래의 성능 주장에 대해 우려를 불러일으킬 수 있음을 보여줍니다. 우리는 LLM의 예측 능력을 확신 있게 평가하기 위해서는 보다 엄격한 평가 방법론이 필요하다고 주장합니다.
분포 매칭 증류(Distribution Matching Distillation, DMD)는 Stable Diffusion(SD) 1.5와 같은 텍스트-이미지 확산 모델에 성공적으로 적용되어 왔다. 그러나 기본 DMD는 SD 3.5 및 FLUX와 같은 대규모 흐름 기반 텍스트-이미지 모델에서 수렴 어려움을 겪는다. 본 논문에서는 먼저 대규모 모델에 기본 DMD를 적용할 때 발생하는 문제를 분석한다. 이후 확장성 문제를 극복하기 위해, 생성자와 가짜 분포 간의 거리를 규제하기 위해 암묵적 분포 정렬(Implicit Distribution Alignment, IDA)을 제안한다. 더 나아가, 교사 모델의 시간 단계 중요도 분포를 재배치하기 위해 세그먼트 내 지도(Intra-Segment Guidance, ISG)를 제안한다. IDA만 사용해도 DMD는 SD 3.5에서 수렴하며, IDA와 ISG를 모두 사용할 경우 DMD는 SD 3.5 및 FLUX.1 dev에서 수렴한다. 확장된 판별자 모델과 같은 다른 개선 사항과 함께, 우리의 최종 모델인 SenseFlow는 SDXL과 같은 확산 기반 텍스트-이미지 모델 및 SD 3.5 Large 및 FLUX와 같은 흐름 매칭 모델 모두에서 우수한 증류 성능을 달성한다. 소스 코드는 https://github.com/XingtongGe/SenseFlow에서 확인할 수 있다.
신경망 오디오 코덱은 원시 오디오 파형을 이산 토큰 표현으로 효율적으로 매핑하는 데 있어 상당한 진전을 이루었으며, 이는 현대 오디오 생성 모델의 기초가 됩니다. 그러나 대부분의 기존 코덱은 주로 재구성 품질을 최적화하는 데 초점을 맞추고 있어, 인코딩된 토큰의 하위 작업 모델링 가능성이 희생되는 경우가 많습니다. 이러한 병목 현상을 극복할 필요성에 동기를 부여받아, 우리는 MagiCodec이라는 새로운 단일 계층 스트리밍 트랜스포머 기반 오디오 코덱을 소개합니다. MagiCodec은 가우시안 노이즈 주입과 잠재 정규화를 포함한 다단계 학습 파이프라인을 통해 설계되었으며, 생성된 코드의 의미론적 표현력을 향상시키면서도 높은 재구성 충실도를 유지하는 것을 명시적으로 목표로 합니다. 우리는 주파수 영역에서 노이즈 주입의 효과를 분석적으로 도출하여, 고주파 성분을 감쇠시키고 강력한 토큰화를 촉진하는 데 있어 그 효능을 입증합니다. 광범위한 실험 평가를 통해 MagiCodec이 재구성 품질과 하위 작업 모두에서 최신 코덱을 능가함을 보여줍니다. 특히, MagiCodec이 생성한 토큰은 자연어에서 관찰되는 것과 유사한 Zipf-like 분포를 보여, 언어 모델 기반 생성 아키텍처와의 호환성을 향상시킵니다. 코드와 사전 학습된 모델은 https://github.com/Ereboas/MagiCodec에서 확인할 수 있습니다.
검색 강화 언어 모델(Retrieval-Augmented Language Models, RALMs)은 특수화된 모듈을 통해 외부 지식을 검색하여 생성 능력을 향상시키는 고전적인 패러다임을 대표한다. 최근 에이전트 기술의 발전으로 대형 언어 모델(Large Language Models, LLMs)이 검색, 계획, 추론을 위해 도구를 자율적으로 활용할 수 있게 되었다. 기존의 훈련 기반 방법들은 유망한 결과를 보여주지만, 이러한 에이전트 능력은 훈련 중 사용된 작업 특정 데이터의 고유한 특성에 의해 제한된다. 에이전트의 보편적 검색 능력을 더욱 강화하기 위해, 우리는 새로운 사전 훈련 프레임워크인 MaskSearch를 제안한다. 사전 훈련 단계에서, 우리는 검색 강화 마스크 예측(Retrieval Augmented Mask Prediction, RAMP) 작업을 도입하여, 모델이 대량의 사전 훈련 데이터에서 마스크된 부분을 채우기 위해 검색 도구를 활용하는 방법을 학습함으로써 LLMs에 대한 보편적 검색 및 추론 능력을 습득하도록 한다. 이후, 모델은 하위 작업에 대해 추가적인 개선을 이루기 위해 훈련된다. 우리는 지도 미세 조정(Supervised Fine-tuning, SFT)과 강화 학습(Reinforcement Learning, RL)을 모두 적용하여 훈련을 진행한다. SFT의 경우, 에이전트 기반 및 증류 기반 방법을 결합하여 훈련 데이터를 생성하며, 이는 계획자, 재작성자, 관찰자로 구성된 다중 에이전트 시스템으로 시작하여 자기 진화 교사 모델로 이어진다. 반면, RL의 경우, DAPO를 훈련 프레임워크로 사용하고 답변 보상과 형식 보상으로 구성된 하이브리드 보상 시스템을 채택한다. 또한, 우리는 마스크된 부분의 수에 따라 모델이 쉬운 사례에서 점점 더 어려운 사례로 점진적으로 학습할 수 있도록 하는 커리큘럼 학습 접근 방식을 도입한다. 우리는 개방형 도메인 다중 홉 질문 응답 시나리오에서 우리의 프레임워크의 효과를 평가한다. 광범위한 실험을 통해, MaskSearch가 LLM 기반 검색 에이전트의 도메인 내 및 도메인 외 하위 작업에서의 성능을 크게 향상시킨다는 것을 입증한다.
대규모 언어 모델(LLMs)이 인간의 삶에 깊숙이 통합되고 의사결정에 점점 더 큰 영향을 미치면서, 이러한 모델이 주관적 선호, 의견 및 신념을 보이는지 여부와 그 정도를 평가하는 것이 중요해졌다. 이러한 경향은 모델 내부의 편향에서 비롯될 수 있으며, 이는 모델의 행동을 형성하고 사용자에게 제공하는 조언과 권장사항에 영향을 미치며 특정 관점을 강화할 가능성이 있다. 본 논문은 사회적, 문화적, 윤리적, 개인적 영역에 걸쳐 LLMs의 주관적 경향성을 평가하기 위해 개발된 벤치마크인 선호, 의견 및 신념 조사(POBs)를 소개한다. 우리는 이 벤치마크를 적용하여 주요 오픈소스 및 클로즈드소스 LLMs를 평가하고, 신뢰성, 중립성, 일관성과 같은 바람직한 특성을 측정했다. 또한, 추론 및 자기반성 메커니즘을 통해 테스트 시점의 계산량을 증가시키는 것이 이러한 지표에 미치는 영향을 조사했다. 다른 작업에서는 효과적이었지만, 우리의 결과는 이러한 메커니즘이 우리의 영역에서는 제한된 이점만 제공한다는 것을 보여준다. 더 나아가, 최신 모델 버전들이 점점 더 일관성이 떨어지고 특정 관점에 편향되는 경향을 보이며, 이는 블라인드 스팟과 우려스러운 추세를 강조한다. POBS: https://ibm.github.io/POBS
우리는 인간이 작성한 글의 대부분의 토큰(예: 90%)을 그대로 복사해야 한다는 극단적인 제약 하에서 대형 언어 모델(LLM)이 생성하는 새로운 유형의 장편 서사인 '프랑켄텍스트(Frankentexts)'를 소개한다. 이 작업은 쓰기 프롬프트를 충족하고, 서로 다른 텍스트 조각을 통합하며, 여전히 일관된 서사를 만들어내야 하는 제어 가능한 생성의 어려운 테스트를 제시한다. 프랑켄텍스트를 생성하기 위해, 우리는 모델이 인간이 작성한 구절을 선택하고 결합하여 초안을 작성하도록 지시한 다음, 사용자가 지정한 복사 비율을 유지하면서 초안을 반복적으로 수정한다. 생성된 프랑켄텍스트는 쓰기 품질, 지시 준수, 탐지 가능성이라는 세 가지 축을 따라 평가된다. Gemini-2.5-Pro는 이 작업에서 놀라울 정도로 잘 수행되었는데, 프랑켄텍스트의 81%가 일관성이 있고 100%가 프롬프트와 관련이 있었다. 특히, 이러한 출력물의 최대 59%가 Pangram과 같은 탐지기에 의해 인간이 작성한 것으로 오분류되어, AI 텍스트 탐지기의 한계를 드러냈다. 인간 평가자는 특히 더 긴 생성물에서 갑작스러운 어조 변화와 구간 간 일관성 없는 문법을 통해 프랑켄텍스트를 식별할 수 있다. 프랑켄텍스트는 도전적인 생성 작업을 제시하는 것 외에도, 이 새로운 저작권의 회색 지대에 대한 효과적인 탐지기를 구축하는 논의를 촉발하고, 혼합 저작권 탐지를 위한 훈련 데이터를 제공하며, 인간-AI 공동 작성 과정을 연구하기 위한 샌드박스 역할을 한다.
일반적인 인간의 목표, 예를 들어 해가 되지 않거나 환각을 일으키지 않는 것과 같은 목표에 부합하는 비전-언어 모델(VLMs)은 시각적 작업을 관리하는 데 있어 인간의 소중한 조력자로 자리 잡았습니다. 그러나 다양한 배경을 가진 사람들은 동일한 상황에서도 서로 다른 인식을 보입니다. 결과적으로, 그들은 VLM 조력자에 대해 개인화된 기대를 가질 수 있습니다. 이는 실제 세계에서의 지원을 위해 VLM 조력자를 개인화된 상황 인식에 맞추는 것이 시급히 필요함을 강조합니다. 이 문제를 연구하기 위해, 우리는 먼저 사회학적 개념인 역할 집합(Role-Set)을 기반으로 개인을 특성화하여 문제를 단순화합니다. 그런 다음, 개인화된 정렬이 달성되었는지 확인하기 위해 개인의 행동을 평가할 것을 제안합니다. 더 나아가, 우리는 18,000개의 인스턴스와 20명의 서로 다른 역할 집합을 가진 개인을 포함하는 PCogAlignBench라는 벤치마크를 구축합니다. 마지막으로, 우리는 개인화된 정렬을 위해 인식 기반 및 행동 기반 보상 모델을 구축하는 PCogAlign이라는 프레임워크를 제시합니다. 실험 결과와 인간 평가는 PCogAlignBench의 신뢰성과 우리가 제안한 PCogAlign의 효과를 입증합니다. 우리는 구축된 벤치마크와 코드를 https://github.com/NLPGM/PCogAlign에서 오픈소스로 공개할 예정입니다.
최근 연구에 따르면, 소수의 고품질 데이터셋에 대해 대형 언어 모델(LLM)을 지도 학습 방식으로 미세 조정하면 강력한 추론 능력을 얻을 수 있는 것으로 나타났습니다. 그러나 전체 모델 미세 조정(Full FT)은 강력한 성능을 보이지만, 계산 비용이 많이 들고 과적합 및 치명적 망각(catastrophic forgetting)에 취약하며, 특히 데이터가 제한적일 때 이러한 문제가 두드러집니다. 이전에 모델 파라미터의 작은 부분집합만 업데이트함으로써 주목할 만한 성공을 거둔 희소 미세 조정(Sparse Fine-tuning)은 효율성과 효과성 사이의 유망한 균형을 제공합니다. 그러나 LLM 시대에서는 추론에 실제로 중요한 파라미터를 식별하기 어렵다는 점 때문에 뒤처져 왔습니다. 본 연구에서는 저랭크 근사(low-rank approximation) 후 가장 큰 크기를 가진 가중치가 미세 조정에 중요한 가중치임을 밝히고, 이를 '주요 가중치(Principal Weights)'라고 명명합니다. 흥미롭게도, 크기 기반 희소 미세 조정은 LLM 미세 조정에서 베이스라인으로는 성능이 낮지만, 랭크 축소 후에는 매우 효과적이 됩니다. 이러한 통찰력은 우리의 방법인 저랭크 기반 희소 미세 조정(Low-rank Informed Sparse Fine-tuning, LIFT)을 이끌어냈습니다. LIFT는 학습 과정에서 상위 5%의 주요 가중치만 업데이트하며, 추론 작업에서 Full FT보다 일관되게 더 나은 성능을 달성하면서도, 인기 있는 파라미터 효율적 미세 조정 방법과 동등한 메모리 효율성을 유지합니다. 산술 추론과 같은 목표 도메인에서 강력한 성능을 보이는 것 외에도, LIFT는 Full FT 및 LoRA와 비교해 최대 20% 더 많은 소스 도메인 지식을 유지합니다. 우리의 코드는 https://github.com/zihanghliu/LIFT에서 확인할 수 있습니다.
시각 데이터를 통해 도시의 사회경제적 조건을 이해하는 것은 지속 가능한 도시 개발과 정책 계획을 위한 어렵지만 필수적인 과제이다. 본 연구에서는 위성 및 스트리트 뷰 이미지로부터 사회경제적 지표를 예측하는 데 있어 대규모 언어-비전 모델(LLVM)의 능력을 평가하기 위해 설계된 포괄적인 벤치마크인 CityLens를 소개한다. 우리는 전 세계적으로 분포된 총 17개 도시를 포괄하며, 경제, 교육, 범죄, 교통, 건강, 환경 등 도시 생활의 다면적 특성을 반영하는 6개 주요 영역을 아우르는 다중 모달 데이터셋을 구축하였다. 이 데이터셋을 기반으로 11개의 예측 과제를 정의하고, 직접 지표 예측(Direct Metric Prediction), 정규화 지표 추정(Normalized Metric Estimation), 특징 기반 회귀(Feature-Based Regression)라는 세 가지 평가 패러다임을 활용하였다. 우리는 이러한 과제들에 대해 17개의 최신 LLVM을 벤치마크하였다. 연구 결과, LLVM이 유망한 지각 및 추론 능력을 보여주는 반면, 도시 사회경제적 지표를 예측하는 데에는 여전히 한계가 있음을 확인하였다. CityLens는 이러한 한계를 진단하고, LLVM을 활용하여 도시 사회경제적 패턴을 이해하고 예측하기 위한 미래의 노력을 안내하는 통합 프레임워크를 제공한다. 우리의 코드와 데이터셋은 https://github.com/tsinghua-fib-lab/CityLens를 통해 공개되어 있다.
본 논문은 대규모 다국어 지속 사전 학습(massively multilingual continual pre-training) 실무에서 중요한 설계 결정 사항인 병렬 데이터의 포함 여부를 조사한다. 구체적으로, 우리는 Llama3 모델 패밀리를 500개 언어에 대규모 다국어 적응(massively multilingual language adaptation)시키는 데 있어 이중어 번역 데이터의 영향을 연구한다. 이를 위해 2,500개 이상의 언어 쌍으로 구성된 MaLA 이중어 번역 코퍼스를 구축하였다. 이후, Llama 3 패밀리의 기본 모델을 다양한 데이터 믹스로 최대 671B 토큰까지 광범위하게 지속 사전 학습한 4개의 대규모 다국어 모델인 EMMA-500 Llama 3 제품군을 개발하고, 이중어 번역 데이터를 포함하거나 포함하지 않은 지속 사전 학습의 효과를 탐구하였다. 7개 작업과 12개 벤치마크에 걸친 포괄적인 평가 결과, 특히 저자원 언어(low-resource languages)의 경우 이중어 데이터가 언어 전이(language transfer)와 성능을 향상시키는 경향이 있음을 확인하였다. 우리는 MaLA 코퍼스, EMMA-500 Llama 3 제품군 아티팩트, 코드 및 모델 생성물을 오픈소스로 공개한다.
신경과학과 인공지능의 교차점에서 신경 신호로부터 연속적인 언어를 해독하는 것은 여전히 중요한 과제로 남아 있습니다. 우리는 두개 내 뇌파(iEEG) 기록으로부터 인지된 음성의 의미적 내용을 재구성하는 새로운 프레임워크인 Neuro2Semantic을 소개합니다. 우리의 접근 방식은 두 단계로 구성됩니다: 첫째, LSTM 기반 어댑터가 신경 신호를 사전 훈련된 텍스트 임베딩과 정렬하고, 둘째, 보정 모듈이 이러한 정렬된 임베딩에서 직접 연속적이고 자연스러운 텍스트를 생성합니다. 이 유연한 방법은 기존의 해독 접근법의 한계를 극복하고 제약 없는 텍스트 생성을 가능하게 합니다. Neuro2Semantic은 단 30분의 신경 데이터로도 강력한 성능을 달성하며, 저데이터 환경에서 최신 최첨단 방법을 능가합니다. 이러한 결과는 뇌-컴퓨터 인터페이스와 신경 해독 기술에서의 실용적 응용 가능성을 강조합니다.
바이노럴 렌더링은 모노 오디오와 스피커 및 청취자의 위치를 기반으로 자연스러운 청각을 모방한 바이노럴 오디오를 합성하는 것을 목표로 합니다. 이 문제를 해결하기 위해 많은 방법이 제안되었지만, 렌더링 품질과 스트리밍 가능한 추론 측면에서 어려움을 겪고 있습니다. 실제 녹음과 구분할 수 없는 고품질의 바이노럴 오디오를 합성하려면 바이노럴 큐, 실내 리버브, 주변 소음 등을 정밀하게 모델링해야 합니다. 또한 실제 응용 프로그램에서는 스트리밍 추론이 요구됩니다. 이러한 문제를 해결하기 위해, 우리는 BinauralFlow라는 플로우 매칭 기반 스트리밍 바이노럴 음성 합성 프레임워크를 제안합니다. 우리는 바이노럴 렌더링을 회귀 문제가 아닌 생성 문제로 간주하고, 고품질 오디오를 렌더링하기 위한 조건부 플로우 매칭 모델을 설계했습니다. 더 나아가, 과거 정보만을 기반으로 현재 오디오 프레임을 추정하는 인과적 U-Net 아키텍처를 설계하여 생성 모델을 스트리밍 추론에 맞게 조정했습니다. 마지막으로, 스트리밍 STFT/ISTFT 연산, 버퍼 뱅크, 중간점 솔버, 그리고 조기 스킵 스케줄을 통합한 연속 추론 파이프라인을 도입하여 렌더링의 연속성과 속도를 개선했습니다. 정량적 및 정성적 평가를 통해 우리의 방법이 최신 기술(SOTA) 접근법을 능가함을 입증했습니다. 또한, 인지 연구를 통해 우리 모델이 실제 녹음과 거의 구분할 수 없으며, 42%의 혼동률을 보이는 것으로 나타났습니다.
R1과 유사한 모델들의 추론 및 계획 능력이 발전했음에도 불구하고, 대형 언어 모델(LLMs)은 정밀한 계산, 기호 조작, 최적화, 알고리즘적 추론이 필요한 작업에서 여전히 어려움을 겪고 있으며, 이는 텍스트 기반 추론이 코드 실행의 엄격함을 갖추지 못하기 때문입니다. 주요 과제는 LLM이 텍스트 기반 추론과 코드 생성을 언제 사용할지 결정할 수 있도록 하는 것입니다. OpenAI는 필요에 따라 코드 인터프리터를 호출하도록 모델을 훈련시키지만, 공개된 연구에서는 사전 훈련된 LLM이 코드를 효과적으로 활용하고 다양한 작업에서 일반화할 수 있도록 조정하는 방법에 대한 지침이 부족합니다. 본 논문에서는 텍스트 전용 LLM을 확장한 R1-Code-Interpreter를 제시하며, 이 모델은 다중 턴 지도 미세 조정(SFT)과 강화 학습(RL)을 통해 단계별 추론 중에 여러 코드 쿼리를 자율적으로 생성하도록 훈련되었습니다. 우리는 144개의 추론 및 계획 작업(훈련용 107개, 테스트용 37개)을 선별했으며, 각 작업에는 200개 이상의 다양한 질문이 포함되어 있습니다. Qwen-2.5 모델(3B/7B/14B)을 다양한 SFT 및 RL 전략을 사용하여 미세 조정하며, 다양한 답변 형식, 추론 모델 대 비추론 모델, 콜드 스타트 대 웜 스타트, GRPO 대 PPO, 마스킹된 코드 출력 대 마스킹되지 않은 코드 출력 등을 조사했습니다. 이전의 좁은 도메인에 대한 RL 연구와 달리, 코드 인터프리터 훈련은 높은 작업 다양성과 비용이 많이 드는 코드 실행으로 인해 상당히 어려운 것으로 나타났으며, 이는 SFT 단계의 중요성을 강조합니다. 우리의 최종 모델인 R1-CI-14B는 37개의 테스트 작업에서 평균 정확도를 44.0%에서 64.1%로 향상시켰으며, GPT-4o(텍스트 전용: 58.6%)를 능가하고 코드 인터프리터를 사용한 GPT-4o(70.9%)에 근접한 성능을 보였으며, 코드 생성을 통한 자기 점검 행동이 나타났습니다. 데이터셋, 코드, 모델은 https://github.com/yongchao98/R1-Code-Interpreter와 https://huggingface.co/yongchao98에서 확인할 수 있습니다.
멀티모달 대형 언어 모델(MLLMs)은 시각적 질문 응답과 같은 작업에서 우수한 성능을 보이지만, 이들의 추론이 더 많이 의존하는 것이 기억된 세계 지식인지 입력 이미지에 포함된 시각적 정보인지는 여전히 불분명합니다. 이를 조사하기 위해, 우리는 세계 지식 사전(예: 빨간 딸기)과 시각적 입력(예: 파란 딸기)을 직접적으로 충돌시키는 시각적으로 사실적인 반사실적 데이터셋인 Visual CounterFact를 소개합니다. Visual CounterFact를 사용하여, 모델 예측이 초기에는 기억된 사전을 반영하지만 중간에서 후반 레이어로 갈수록 시각적 증거로 이동함을 보여줍니다. 이러한 동적은 두 모달리티 간의 경쟁을 드러내며, 평가 과정에서 시각적 입력이 결국 사전을 재정의함을 보여줍니다. 이러한 행동을 제어하기 위해, 우리는 Pixels Versus Priors(PvP) 스티어링 벡터를 제안합니다. 이는 활성화 수준의 개입을 통해 모델 출력을 세계 지식 또는 시각적 입력 중 하나로 제어하는 메커니즘입니다. 평균적으로, PvP는 색상 예측의 92.5%와 크기 예측의 74.6%를 사전에서 반사실적 예측으로 성공적으로 전환합니다. 이러한 발견들은 멀티모달 모델에서 사실적 행동을 해석하고 제어하기 위한 새로운 도구를 제공합니다.
대규모 감정 음성 데이터를 높은 일관성으로 획득하는 것은 음성 합성 분야에서 여전히 과제로 남아 있다. 본 논문은 레이블이 없는 비디오 데이터에서 높은 일관성을 가진 감정 음성을 추출하기 위한 완전 자동화된 멀티모달 파이프라인인 MIKU-PAL을 제안한다. 얼굴 감지 및 추적 알고리즘을 활용하여, 우리는 멀티모달 대형 언어 모델(MLLM)을 사용한 자동 감정 분석 시스템을 개발하였다. 실험 결과, MIKU-PAL은 인간 수준의 정확도(MELD 기준 68.5%)와 우수한 일관성(Fleiss kappa 점수 0.93)을 달성할 수 있으며, 인간 주석보다 훨씬 저렴하고 빠르다는 것을 보여준다. MIKU-PAL의 고품질, 유연성, 일관성 있는 주석을 통해, 최대 26가지의 세분화된 음성 감정 범주를 주석할 수 있으며, 이는 인간 주석자에 의해 83%의 합리성 평가를 받았다. 우리가 제안한 시스템을 기반으로, 감정 텍스트-투-스피치 및 시각적 음성 복제를 위한 새로운 벤치마크로 세분화된 감정 음성 데이터셋 MIKU-EmoBench(131.2시간)을 공개하였다.
본 연구는 소스 데이터에 접근하지 않고도 모델이 타겟 도메인에 적응하는 소스 프리 도메인 적응(Source-Free Domain Adaptation, SFDA)을 탐구한다. 이를 위해 새로운 증강 기법인 셔플 패치믹스(Shuffle PatchMix, SPM)와 신뢰할 수 있는 의사 레이블을 우선시하여 레이블 노이즈를 완화하는 재가중 전략을 제안한다. SPM은 이미지 패치를 섞고 혼합하여 다양하고 도전적인 증강 데이터를 생성하며, 재가중 전략은 의사 레이블의 신뢰성을 높이는 데 초점을 맞춘다. 이러한 기법은 PACS와 같은 소규모 데이터셋에서 과적합 및 의사 레이블 노이즈로 인한 위험이 큰 경우에 특히 효과적이다. PACS, VisDA-C, DomainNet-126의 세 가지 주요 벤치마크에서 최신 기술 수준의 결과를 달성하였다. 특히 PACS에서는 단일 타겟 설정에서 7.3%(79.4%에서 86.7%로), 다중 타겟 설정에서 7.2%의 성능 향상을 보였으며, DomainNet-126와 VisDA-C에서는 각각 2.8%와 0.7%의 개선을 이루었다. 이러한 고급 증강 기법과 강력한 의사 레이블 재가중 전략의 조합은 SFDA의 새로운 벤치마크를 제시한다. 코드는 https://github.com/PrasannaPulakurthi/SPM에서 확인할 수 있다.
양자 연산의 효율적인 컴파일은 양자 컴퓨팅의 확장에 있어 주요한 병목 현상으로 남아 있다. 현재 최신 기술은 탐색 알고리즘과 기울기 기반 매개변수 최적화를 결합하여 낮은 컴파일 오류를 달성하지만, 이는 긴 실행 시간을 초래하며 양자 하드웨어나 고비용의 고전적 시뮬레이션에 대한 다중 호출을 필요로 하여 확장이 어렵다. 최근, 기계 학습 모델이 대안으로 등장했으나, 이는 현재 이산 게이트 집합에 국한되어 있다. 본 연구에서는 목표 유니터리를 컴파일하기 위해 회로의 구조와 연속 매개변수를 동시에 생성하는 다중 모드 디노이징 확산 모델을 소개한다. 이 모델은 이산 게이트 선택과 매개변수 예측을 위한 두 개의 독립적인 확산 과정을 활용한다. 다양한 실험을 통해 모델을 벤치마킹하고, 큐비트 수, 회로 깊이, 매개변수화된 게이트의 비율에 따른 방법의 정확도를 분석한다. 마지막으로, 빠른 회로 생성을 활용하여 특정 연산에 대한 대규모 회로 데이터셋을 생성하고, 이를 통해 양자 회로 합성에 대한 새로운 통찰을 발견하는 데 도움이 될 수 있는 유용한 휴리스틱을 추출한다.