번역이 포함된 일일 선별된 AI 연구 논문
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 결과 기반 보상으로부터 직접 학습함으로써 대규모 언어 모델의 추론 능력을 향상시키는 데 유망한 가능성을 보여주었습니다. 최근의 RLVR 연구들은 제로 설정(zero setting) 하에서 추론 과정에 대한 라벨링 감독을 피하지만, 여전히 훈련을 위해 수작업으로 정리된 질문과 답변 컬렉션에 의존합니다. 고품질의 인간이 생성한 예제의 부족은 언어 모델 사전 훈련 분야에서 이미 드러난 바와 같이, 인간 감독에 의존하는 방식의 장기적인 확장성에 대한 우려를 불러일으킵니다. 더 나아가, 가상의 미래에서 AI가 인간 지능을 초월하는 상황에서는 인간이 제공한 과제가 초지능 시스템에게 제한된 학습 잠재력만을 제공할 가능성이 있습니다. 이러한 문제를 해결하기 위해, 우리는 외부 데이터에 의존하지 않고 단일 모델이 자신의 학습 진전을 극대화하는 과제를 제안하고 이를 해결함으로써 추론 능력을 향상시키는 새로운 RLVR 패러다임인 '절대 제로(Absolute Zero)'를 제안합니다. 이 패러다임 하에서, 우리는 코드 실행기를 사용하여 제안된 코드 추론 과제를 검증하고 답변을 확인함으로써 훈련 커리큘럼과 추론 능력을 자체적으로 진화시키는 '절대 제로 추론기(Absolute Zero Reasoner, AZR)' 시스템을 소개합니다. AZR은 검증 가능한 보상의 통합된 원천으로 작용하며, 개방적이면서도 근거 있는 학습을 안내합니다. 외부 데이터 없이 전적으로 훈련되었음에도 불구하고, AZR은 코딩 및 수학적 추론 과제에서 전반적으로 최첨단(SOTA) 성능을 달성하며, 수만 개의 도메인 내 인간이 정리한 예제에 의존하는 기존의 제로 설정 모델들을 능가합니다. 또한, AZR이 다양한 모델 규모에 효과적으로 적용될 수 있으며 다양한 모델 클래스와 호환된다는 것을 입증합니다.
최근 멀티모달 보상 모델(Reward Models, RMs)의 발전은 시각 모델을 인간의 선호도와 일치시키기 위한 보상 신호를 제공하는 데 있어 상당한 가능성을 보여주고 있습니다. 그러나 현재의 RMs는 일반적으로 직접적인 응답을 제공하거나 제한된 깊이의 얕은 추론 과정에 머무르는 경우가 많아, 종종 부정확한 보상 신호를 초래합니다. 우리는 명시적인 긴 사고의 연쇄(Chain of Thought, CoT)를 보상 추론 과정에 통합함으로써 그 신뢰성과 견고성을 크게 강화할 수 있다고 주장합니다. 더 나아가, RMs가 CoT 추론을 내재화하면 암묵적인 추론 능력을 통해 직접 응답의 정확성도 향상될 수 있다고 믿습니다. 이를 위해, 본 논문은 UnifiedReward-Think를 제안합니다. 이는 시각적 이해와 생성 보상 작업 모두를 위한 다차원적이고 단계별로 이루어진 긴 사고의 연쇄 추론이 가능한 최초의 통합 멀티모달 CoT 기반 보상 모델입니다. 구체적으로, 우리는 탐색 기반 강화 미세 조정 접근법을 채택하여 모델의 잠재적 복잡 추론 능력을 유도하고 촉진합니다: (1) 먼저 소량의 이미지 생성 선호 데이터를 사용하여 GPT-4o의 추론 과정을 정제한 후, 이를 모델의 콜드 스타트에 활용하여 CoT 추론의 형식과 구조를 학습시킵니다. (2) 이후, 모델의 사전 지식과 일반화 능력을 활용하여 대규모 통합 멀티모달 선호 데이터를 준비하고 다양한 시각 작업에 걸쳐 모델의 추론 과정을 유도합니다. 이 단계에서 올바른 추론 출력은 거부 샘플링을 위해 보존되어 모델을 개선하고 (3), 잘못된 예측 샘플은 최종적으로 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 기반 강화 미세 조정에 사용되어 모델이 다양한 추론 경로를 탐색하고 올바르고 견고한 해결책을 최적화할 수 있도록 합니다. 다양한 시각 보상 작업에 걸친 광범위한 실험을 통해 우리 모델의 우수성을 입증합니다.
우리는 대규모 선형 어텐션 디코더 모델로의 신속한 소프트맥스 어텐션 트랜스포머 변환 프로토콜인 RADLADS(Rapid Attention Distillation to Linear Attention Decoders at Scale)를 제안하며, 두 가지 새로운 RWKV 변형 아키텍처와 7B, 32B, 72B 크기의 인기 있는 Qwen2.5 오픈소스 모델에서 변환된 모델들을 함께 소개합니다. 우리의 변환 프로세스는 원본 교사 모델을 훈련하는 데 사용된 토큰 수의 0.005% 미만인 350-700M 토큰만을 필요로 합니다. 우리의 72B 선형 어텐션 모델로의 변환 비용은 현재 가격 기준으로 \$2,000 USD 미만이지만, 추론 시 품질은 원본 트랜스포머에 근접합니다. 이러한 모델들은 해당 크기의 선형 어텐션 모델에 대한 표준 벤치마크에서 최첨단 하위 작업 성능을 달성합니다. 우리는 모든 모델을 Apache 2.0 라이선스 하에 HuggingFace에 공개하며, 72B 모델은 Qwen 라이선스 협약의 적용을 받습니다. 모델은 https://huggingface.co/collections/recursal/radlads-6818ee69e99e729ba8a87102에서 확인할 수 있습니다. 훈련 코드는 https://github.com/recursal/RADLADS-paper에서 확인할 수 있습니다.
액션 커스터마이제이션은 입력 제어 신호에 따라 주체가 특정 동작을 수행하는 비디오를 생성하는 과정을 포함합니다. 현재의 방법들은 포즈 기반 또는 전역 모션 커스터마이제이션을 사용하지만, 레이아웃, 골격, 시점 일관성과 같은 공간 구조에 대한 엄격한 제약으로 인해 다양한 주체와 시나리오에 대한 적응성이 제한됩니다. 이러한 한계를 극복하기 위해, 우리는 참조 비디오의 동작을 임의의 타겟 이미지로 전이하는 FlexiAct를 제안합니다. 기존 방법과 달리, FlexiAct는 참조 비디오의 주체와 타겟 이미지 간의 레이아웃, 시점, 골격 구조의 변동을 허용하면서도 정체성 일관성을 유지합니다. 이를 달성하기 위해서는 정밀한 동작 제어, 공간 구조 적응, 그리고 일관성 보존이 필요합니다. 이를 위해, 우리는 공간 적응과 일관성 보존에 뛰어난 경량 이미지 조건부 어댑터인 RefAdapter를 도입했습니다. 이는 외관 일관성과 구조적 유연성의 균형을 맞추는 데 있어 기존 방법들을 능가합니다. 또한, 우리의 관찰에 따르면, 노이즈 제거 과정은 다양한 시간 단계에서 모션(저주파)과 외관 세부 사항(고주파)에 대해 서로 다른 수준의 주의를 기울입니다. 따라서 우리는 기존의 공간-시간 아키텍처를 분리하여 의존하는 방법과 달리, 노이즈 제거 과정에서 직접 동작 추출을 달성하는 FAE(Frequency-aware Action Extraction)를 제안합니다. 실험 결과, 우리의 방법은 다양한 레이아웃, 골격, 시점을 가진 주체에게 효과적으로 동작을 전이함을 보여줍니다. 우리는 추가 연구를 지원하기 위해 코드와 모델 가중치를 https://shiyi-zh0408.github.io/projectpages/FlexiAct/에서 공개합니다.
대규모 언어 모델(LLM)의 점점 증가하는 컨텍스트 길이는 GPU 메모리와 대역폭 제약으로 인해 효율적인 추론에 상당한 어려움을 야기합니다. 본 논문에서는 키-값(KV) 캐시를 벡터 저장 시스템으로 재구성하여 내재된 어텐션 희소성을 활용해 장문 컨텍스트 LLM 추론을 가속화하는 새로운 시스템인 RetroInfer를 소개합니다. 이 시스템의 핵심은 웨이브 인덱스(Attention-aWare VEctor index)로, 삼분할 어텐션 근사화, 정확도 제한 어텐션 추정, 세그먼트화 클러스터링과 같은 기법을 통해 중요한 토큰을 효율적이고 정확하게 검색할 수 있게 합니다. 이를 보완하는 웨이브 버퍼는 KV 캐시 배치를 조정하고 GPU와 CPU 간의 계산 및 데이터 전송을 중첩시켜 높은 처리량을 유지합니다. 기존의 희소성 기반 방법들이 토큰 선택과 하드웨어 조정에 어려움을 겪던 것과 달리, RetroInfer는 모델 정확도를 저해하지 않으면서도 견고한 성능을 제공합니다. 장문 컨텍스트 벤치마크에서의 실험 결과, GPU 메모리 한계 내에서 전체 어텐션 대비 최대 4.5배, KV 캐시를 CPU 메모리로 확장했을 때 희소 어텐션 기준선 대비 최대 10.5배의 속도 향상을 보였으며, 전체 어텐션 수준의 정확도를 유지했습니다.
Qwen 시리즈는 오픈소스 대규모 언어 모델(LLM)의 선두주자로 부상하며, 자연어 이해 작업에서 뛰어난 능력을 입증했습니다. 최근 출시된 Qwen3는 다양한 벤치마크에서 우수한 성능을 보이며, 자원이 제한된 환경에서 이러한 모델을 효율적으로 배포하려는 관심이 높아지고 있습니다. 저비트 양자화는 유망한 해결책으로 제시되지만, Qwen3의 성능에 미치는 영향은 아직 충분히 탐구되지 않았습니다. 본 연구는 다양한 양자화 설정 하에서 Qwen3의 견고성을 체계적으로 평가하여, 이 최첨단 모델을 압축하는 데 있어 기회와 과제를 밝히고자 합니다. 우리는 Qwen3에 적용된 5가지 기존의 고전적인 사후 학습 양자화 기술을 1비트에서 8비트까지의 비트 폭에 걸쳐 엄격히 평가하고, 여러 데이터셋에서 그 효과를 검증했습니다. 연구 결과, Qwen3는 중간 비트 폭에서 경쟁력 있는 성능을 유지하지만, 극저정밀도에서는 언어 작업에서 현저한 성능 저하를 겪는 것으로 나타났으며, 이는 LLM 압축에서 여전히 해결해야 할 과제를 강조합니다. 이러한 결과는 극단적인 양자화 시나리오에서 성능 손실을 완화하기 위한 추가 연구의 필요성을 강조합니다. 우리는 이 실증적 분석이 Qwen3 및 향후 LLM에 맞춤화된 양자화 방법을 발전시키고, 정확도를 저하시키지 않으면서 실용성을 향상시키는 데 실행 가능한 통찰을 제공할 것으로 기대합니다. 본 프로젝트는 https://github.com/Efficient-ML/Qwen3-Quantization와 https://huggingface.co/collections/Efficient-ML/qwen3-quantization-68164450decb1c868788cb2b에서 공개되었습니다.
최근 AI 기반 축구 이해 분야에서 빠른 발전이 이루어졌지만, 기존 연구는 주로 단일 또는 제한된 작업에 초점을 맞추고 있습니다. 이러한 격차를 해소하기 위해, 우리는 포괄적인 축구 이해를 위한 통합 프레임워크를 제안합니다. 구체적으로, 본 논문에서 다음과 같은 기여를 합니다: (i) 플레이어, 팀, 심판, 경기장 등 풍부한 도메인 지식을 통합하여 지식 기반 추론을 가능하게 하는 최초의 대규모 멀티모달 축구 지식 기반인 SoccerWiki를 구축합니다; (ii) 자동화된 파이프라인과 수동 검증을 통해 구성된 13개의 독특한 이해 작업에 걸쳐 약 10,000개의 표준화된 멀티모달(텍스트, 이미지, 비디오) 객관식 QA 쌍을 포함하는 가장 크고 포괄적인 축구 특화 벤치마크인 SoccerBench를 제시합니다; (iii) SoccerWiki의 도메인 전문성을 활용하여 복잡한 축구 질문을 협업적 추론을 통해 분해하고 강력한 성능을 달성하는 새로운 다중 에이전트 시스템인 SoccerAgent를 소개합니다; (iv) SoccerBench에서 최신 MLLM(Multimodal Large Language Models)을 벤치마킹한 광범위한 평가 및 어블레이션 연구를 통해 제안된 에이전트 시스템의 우수성을 입증합니다. 모든 데이터와 코드는 https://jyrao.github.io/SoccerAgent/에서 공개되어 있습니다.
읽기를 할 때, 우리는 종종 텍스트 속에서 특정 정보에 관심을 갖습니다. 예를 들어, 여러분이 이 논문을 읽는 이유는 독서 중의 안구 운동에 대한 대형 언어 모델(LLM)에 대한 호기심, 실험 설계에 대한 관심, 혹은 단순히 "그런데 이게 실제로 작동할까?"라는 질문 때문일 수 있습니다. 더 넓게 보면, 일상 생활에서 사람들은 각기 다른 텍스트별 목표를 가지고 텍스트에 접근하며, 이러한 목표가 그들의 독서 행동을 이끕니다. 본 연구에서는, 독서 중의 안구 운동으로부터 개방형 독서 목표를 자동으로 해독할 수 있는지에 대해 처음으로 질문합니다. 이 질문에 답하기 위해, 우리는 목표 분류 및 목표 재구성 작업과 평가 프레임워크를 소개하고, 수백 가지의 텍스트별 정보 탐색 작업이 포함된 영어 독서 데이터에 대한 대규모 안구 추적 데이터를 사용합니다. 우리는 안구 운동과 텍스트를 결합하여 목표 분류 및 목표 재구성을 수행하는 여러 가지 판별적 및 생성적 다중 모드 LLM을 개발하고 비교합니다. 우리의 실험 결과는 두 작업 모두에서 상당한 성공을 보여주며, LLM이 독자들의 텍스트별 목표에 대한 유용한 정보를 안구 운동으로부터 추출할 수 있음을 시사합니다.
확산 모델의 급속한 발전은 사용자 경험을 위해 일반적으로 장면 수준의 4D 자산이 필요한 VR 및 AR 기술의 혁신적인 적용을 가능케 할 잠재력을 가지고 있다. 그러나 기존의 확산 모델은 주로 정적인 3D 장면이나 객체 수준의 동역학을 모델링하는 데 집중되어 있어, 진정한 몰입형 경험을 제공하는 데 한계가 있다. 이러한 문제를 해결하기 위해, 우리는 HoloTime이라는 프레임워크를 제안한다. 이 프레임워크는 단일 프롬프트 또는 참조 이미지로부터 파노라마 비디오를 생성하는 비디오 확산 모델과 생성된 파노라마 비디오를 4D 자산으로 원활하게 변환하는 360도 4D 장면 재구성 방법을 통합하여 사용자에게 완전히 몰입 가능한 4D 경험을 제공한다. 구체적으로, 고품질 파노라마 비디오 생성을 위해 비디오 확산 모델을 제어하기 위해, 우리는 360World 데이터셋을 소개한다. 이 데이터셋은 하위 4D 장면 재구성 작업에 적합한 최초의 포괄적인 파노라마 비디오 컬렉션이다. 이 선별된 데이터셋을 바탕으로, 우리는 파노라마 이미지를 고품질 파노라마 비디오로 변환할 수 있는 2단계 이미지-투-비디오 확산 모델인 Panoramic Animator를 제안한다. 이어서, 우리는 생성된 파노라마 비디오를 4D 포인트 클라우드로 변환하여 공간적 및 시간적으로 일관된 4D 장면을 재구성하기 위한 전체론적 4D Gaussian Splatting 표현을 최적화할 수 있는 공간-시간 깊이 추정 방법을 활용한 Panoramic Space-Time Reconstruction을 제시한다. 우리의 방법의 효율성을 검증하기 위해, 기존 접근법과의 비교 분석을 수행하였으며, 이는 파노라마 비디오 생성 및 4D 장면 재구성 모두에서 우리의 방법이 우수함을 보여준다. 이를 통해 우리의 방법이 더욱 흥미롭고 현실적인 몰입형 환경을 생성하여 VR 및 AR 애플리케이션에서 사용자 경험을 향상시킬 수 있음을 입증한다.
소프트웨어 엔지니어링을 위한 언어 모델(Language Models, LMs)의 최근 발전에도 불구하고, 훈련 데이터 수집은 여전히 큰 문제로 남아 있습니다. 기존 데이터셋은 규모가 작아 최대 수천 개의 훈련 인스턴스와 11개 이하의 GitHub 저장소에서 수집된 데이터로 구성되어 있습니다. 이러한 데이터셋을 정제하는 절차는 복잡하며, 수백 시간의 인력이 필요합니다. 또한, 동반 실행 환경은 테라바이트 단위의 저장 공간을 차지하여 확장성과 사용성을 심각하게 제한합니다. 이러한 문제를 해결하기 위해, 우리는 대규모 소프트웨어 엔지니어링 훈련 데이터를 생성하기 위한 새로운 파이프라인인 SWE-smith를 소개합니다. SWE-smith는 주어진 Python 코드베이스에 대해 해당 실행 환경을 구축한 후, 코드베이스의 기존 테스트를 실패시키는 수백에서 수천 개의 작업 인스턴스를 자동으로 합성합니다. SWE-smith를 사용하여, 우리는 128개의 GitHub 저장소에서 수집된 5만 개의 인스턴스로 구성된 데이터셋을 생성했으며, 이는 이전 모든 연구보다 한 차원 더 큰 규모입니다. 우리는 SWE-agent-LM-32B를 훈련시켜 SWE-bench Verified 벤치마크에서 40.2%의 Pass@1 해결률을 달성했으며, 이는 오픈 소스 모델 중 최고 수준입니다. 우리는 SWE-smith(수집 절차, 작업 인스턴스, 궤적, 모델)를 오픈 소스로 공개하여 자동화된 소프트웨어 엔지니어링을 위한 LM 시스템 연구의 진입 장벽을 낮추고자 합니다. 모든 자산은 https://swesmith.com에서 확인할 수 있습니다.
대형 언어 모델(LLMs)은 다양한 자연어 처리 작업에서 전례 없는 능력을 보여주고 있습니다. 이들이 텍스트와 코드를 처리하고 생성할 수 있는 능력은 많은 분야에서 보편적으로 사용되게 만들었으며, 지식 기반 및 "추론" 도구로서의 활용은 여전히 활발히 연구되고 있는 분야입니다. 지리학 분야에서는 LLM의 지리적 지식과 공간 추론 능력을 평가하는 데 초점을 맞춘 연구가 점점 증가하고 있습니다. 그러나 이러한 모델의 내부 작동 방식, 특히 지리적 정보를 처리하는 방식에 대해서는 아직 알려진 바가 거의 없습니다. 이 장에서는 지리공간 메커니즘 해석 가능성(geospatial mechanistic interpretability) 연구를 위한 새로운 프레임워크를 제시합니다. 이는 공간 분석을 사용하여 LLM이 지리적 정보를 처리하는 방식을 역공학적으로 연구하는 것입니다. 우리의 목표는 이러한 복잡한 모델이 지리적 정보를 처리하는 동안 생성하는 내부 표현을 더 깊이 이해하는 것입니다. 이를 'LLM이 지리적 정보에 대해 어떻게 생각하는지'라고 표현할 수도 있겠지만, 이러한 표현이 지나친 의인화가 아니라는 전제 하에서 말입니다. 먼저, LLM의 내부 구조를 밝히기 위한 프로빙(probing)의 사용을 개괄합니다. 그런 다음 메커니즘 해석 가능성 분야를 소개하며, 중첩 가설(superposition hypothesis)과 희소 오토인코더(sparse autoencoders)가 LLM의 다의적(polysemantic) 내부 표현을 더 해석 가능한 단의적(monosemantic) 특성으로 분리하는 데 어떤 역할을 하는지 논의합니다. 우리의 실험에서는 공간 자기상관(spatial autocorrelation)을 사용하여 지명에 대해 얻은 특성이 지리적 위치와 관련된 공간 패턴을 보여주며, 이를 통해 지리공간적으로 해석할 수 있음을 보여줍니다. 이는 이러한 모델이 지리적 정보를 처리하는 방식에 대한 통찰을 제공합니다. 마지막으로, 우리의 프레임워크가 지리학 분야에서 파운데이션 모델(foundation models)의 연구와 사용을 어떻게 형성할 수 있는지 논의합니다.
자연스러운 인간-컴퓨터 상호작용에 대한 요구가 증가함에 따라, 음성은 일상적인 의사소통에서 가장 흔한 형태 중 하나로, 음성 기반 시스템이 점점 더 주목받고 있다. 그러나 기존의 음성 모델들은 스트리밍 중 첫 번째 오디오 토큰을 생성할 때 높은 지연 시간을 겪으며, 이는 배포에 있어 중요한 병목 현상으로 작용한다. 이 문제를 해결하기 위해, 우리는 빠른 오디오-텍스트 토큰 생성을 가능하게 하는 종단 간 대형 음성 모델인 VITA-Audio를 제안한다. 구체적으로, 우리는 단일 모델 순방향 전달 내에서 여러 오디오 토큰을 효율적으로 생성하는 경량의 다중 교차 모달 토큰 예측(MCTP) 모듈을 도입하여, 추론 속도를 가속화할 뿐만 아니라 스트리밍 시나리오에서 첫 번째 오디오 생성 지연 시간을 크게 줄인다. 또한, 음성 품질의 최소한의 손실로 모델 가속화를 달성하기 위해 4단계 점진적 학습 전략을 탐구한다. 우리가 아는 한, VITA-Audio는 첫 번째 순방향 전달 중에 오디오 출력을 생성할 수 있는 최초의 다중 모달 대형 언어 모델로, 최소한의 지연 시간으로 실시간 대화 기능을 가능하게 한다. VITA-Audio는 완전히 재현 가능하며 오픈소스 데이터만으로 학습된다. 실험 결과는 우리의 모델이 7B 파라미터 규모에서 3~5배의 추론 속도 향상을 달성할 뿐만 아니라, 자동 음성 인식(ASR), 텍스트-음성 변환(TTS), 음성 질문 응답(SQA) 작업에 대한 여러 벤치마크에서 유사한 모델 크기의 오픈소스 모델을 크게 능가함을 보여준다.
LLM 다중 에이전트 시스템에서의 실패 귀인(실패를 초래한 에이전트와 단계 식별)은 시스템 디버깅에 중요한 단서를 제공하지만, 아직까지 충분히 연구되지 않았으며 수작업이 많이 필요한 분야입니다. 본 논문에서는 LLM 다중 에이전트 시스템을 위한 자동화된 실패 귀인이라는 새로운 연구 영역을 제안하고 정형화합니다. 이를 지원하기 위해, 127개의 LLM 다중 에이전트 시스템에서 수집된 방대한 실패 로그와 특정 에이전트 및 결정적인 오류 단계를 연결한 세밀한 주석을 포함한 Who&When 데이터셋을 소개합니다. Who&When을 활용하여 세 가지 자동화된 실패 귀인 방법을 개발하고 평가하며, 각 방법의 장단점을 요약합니다. 최고 성능을 보인 방법은 실패를 초래한 에이전트를 식별하는 데 53.5%의 정확도를 달성했지만, 실패 단계를 정확히 찾아내는 데는 14.2%에 그쳤으며, 일부 방법은 무작위 추론보다 낮은 성능을 보였습니다. OpenAI o1 및 DeepSeek R1과 같은 최첨단 추론 모델조차도 실용적인 수준의 성능을 달성하지 못했습니다. 이러한 결과는 이 작업의 복잡성과 해당 분야의 추가 연구 필요성을 강조합니다. 코드와 데이터셋은 https://github.com/mingyin1/Agents_Failure_Attribution에서 확인할 수 있습니다.
텍스트에서 인터랙티브 3D 장면을 합성하는 것은 게임, 가상 현실, 그리고 구현된 AI에 필수적입니다. 그러나 기존 방법들은 여러 가지 도전 과제에 직면해 있습니다. 학습 기반 접근법은 소규모의 실내 데이터셋에 의존하여 장면 다양성과 레이아웃 복잡성을 제한합니다. 대규모 언어 모델(LLM)은 다양한 텍스트 도메인 지식을 활용할 수 있지만, 공간적 현실감에 어려움을 겪으며 종종 상식에 어긋나는 비현실적인 객체 배치를 생성합니다. 우리의 핵심 통찰은 시각적 인식이 LLM이 부족한 현실적인 공간적 지침을 제공함으로써 이 간극을 메울 수 있다는 것입니다. 이를 위해 우리는 LLM 기반 장면 계획과 시각적 지도를 통한 레이아웃 개선을 통합한 학습이 필요 없는 에이전트 프레임워크인 Scenethesis를 소개합니다. 텍스트 프롬프트가 주어지면, Scenethesis는 먼저 LLM을 사용하여 대략적인 레이아웃을 초안으로 작성합니다. 그런 다음 시각 모듈이 이미지 지도를 생성하고 장면 구조를 추출하여 객체 간 관계를 포착함으로써 이를 개선합니다. 다음으로, 최적화 모듈이 반복적으로 정확한 포즈 정렬과 물리적 타당성을 강제하여 객체 침투나 불안정성과 같은 아티팩트를 방지합니다. 마지막으로, 판단 모듈이 공간적 일관성을 검증합니다. 포괄적인 실험 결과, Scenethesis는 다양하고 현실적이며 물리적으로 타당한 3D 인터랙티브 장면을 생성하여 가상 콘텐츠 제작, 시뮬레이션 환경, 그리고 구현된 AI 연구에 가치가 있음을 보여줍니다.
기존의 데이터 프레젠테이션은 일반적으로 발표자와 시각화를 3D 세계와 2D 화면이라는 두 개의 분리된 공간으로 나누어 시각화 중심의 스토리를 강요합니다. 보다 인간 중심의 시청 경험을 창출하기 위해, 우리는 InfoVids를 통해 시각화와 발표자 간의 보다 균형 잡힌 관계를 구축했습니다. 이러한 인포그래픽에서 영감을 받은 정보성 비디오는 발표자와 시각화 간의 관계를 재정의하기 위해 제작되었습니다. InfoVids를 설계하면서, 우리는 레이아웃, 형태, 상호작용의 사용이 시청자 경험에 미치는 영향을 탐구합니다. 우리는 30명의 참가자를 대상으로 InfoVids를 기존의 2D '슬라이드'와 9가지 지표로 비교하고, 자서전적 관점에서 실용적이고 장기적인 통찰을 제공합니다. 혼합 방법 분석을 통해, 이 패러다임이 시청자의 주의 분산을 줄이고, 시각화에서 발표자로 초점을 이동시키며, 보다 상호작용적이고 자연스럽고 몰입도 높은 전신 데이터 퍼포먼스를 이끌어냈다는 사실을 밝혔습니다. 궁극적으로, InfoVids는 시청자들이 발표자와 시각화 간의 전통적인 역학 관계를 재구상하는 데 도움을 주었습니다.
언어 모델 개발자들은 일반적으로 모델이 유사한 출력을 생성하지 않도록 사전 학습 데이터에서 유해하거나 저작권이 있는 텍스트와 같은 고위험 콘텐츠를 필터링합니다. 그러나 이러한 데이터를 완전히 제거하면 모델이 유해하거나 민감한 콘텐츠를 인식하고 적절히 대응하는 능력이 제한됩니다. 본 논문에서는 모델이 고위험 데이터를 생성하지 않으면서도 이를 이해하도록 학습하는 사전 학습 패러다임인 SLUNG(Selective Loss to Understand but Not Generate)을 소개합니다. SLUNG은 다음 토큰 예측 손실을 균일하게 적용하는 대신, 고위험 토큰의 생성을 유도하지 않으면서도 이를 모델의 컨텍스트 창 내에 유지하도록 선택적으로 조정합니다. 모델이 고위험 토큰 뒤에 오는 저위험 토큰을 예측하도록 학습함에 따라, 고위험 콘텐츠를 이해하도록 강제됩니다. 실험을 통해 SLUNG이 모델의 고위험 데이터 이해 능력(예: 유해 콘텐츠 인식 능력)을 향상시키면서도 그 생성(예: 모델 응답의 유해성)을 증가시키지 않음을 보여줍니다. 전반적으로, SLUNG 패러다임은 필터링되었을 고위험 텍스트로부터 모델이 이점을 얻을 수 있도록 합니다.
대형 및 소형 언어 모델(LMs)의 협업 패러다임은 성능과 비용을 효과적으로 균형 있게 조정하지만, 핵심적인 과제는 소형 LMs에서 환각(hallucination)이 발생할 때 정확한 호출 시점을 파악하는 데 있습니다. 기존의 최적화 노력은 주로 후처리 기술에 초점을 맞추었으며, 이는 LMs의 추론 과정과 분리되어 있어 높은 계산 비용과 제한된 효과를 초래했습니다. 본 논문에서는 AttenHScore라는 실용적인 호출 평가 지표를 제안합니다. 이 지표는 소형 LMs의 생성 과정에서 환각의 누적과 전파를 계산하여 잠재적인 추론 오류를 지속적으로 증폭시킵니다. 동적으로 탐지 임계값을 조정함으로써 대형 LMs의 실시간 호출을 더 정확하게 달성합니다. 또한, 소형 LMs의 제한된 추론 능력을 고려하여 불확실성 인식 지식 재구성을 활용하여 다양한 텍스트 청크에서 중요한 정보를 더 잘 포착할 수 있도록 돕습니다. 광범위한 실험을 통해 우리의 AttenHScore가 여러 QA 데이터셋에서 실시간 환각 탐지 능력을 향상시키는 데 있어 대부분의 베이스라인을 능가하며, 특히 복잡한 질의를 다룰 때 뛰어난 성능을 보임을 확인했습니다. 더욱이, 우리의 전략은 추가 모델 학습이 필요하지 않으며 다양한 트랜스포머 기반 LMs에 적응하는 데 유연성을 보입니다.
최근 몇 년간 대규모 언어 모델(LLM) 기반의 다중 에이전트 프레임워크가 빠르게 발전해 왔습니다. 이러한 진전에도 불구하고, 이들의 성능을 평가하기 위해 특별히 설계된 벤치마크 데이터셋은 여전히 부족한 상황입니다. 이러한 격차를 해소하기 위해, 우리는 지능형 개인 비서 컨텍스트에서 LLM 기반 다중 에이전트 프레임워크를 평가하기 위한 벤치마크 데이터셋인 Auto-SLURP를 소개합니다. Auto-SLURP는 원래 자연어 이해 작업을 위해 개발된 SLURP 데이터셋을 확장하여, 데이터를 재라벨링하고 시뮬레이션된 서버 및 외부 서비스를 통합했습니다. 이러한 개선을 통해 언어 이해, 작업 실행, 응답 생성에 이르는 종단 간 평가 파이프라인을 포괄적으로 제공할 수 있게 되었습니다. 우리의 실험 결과, Auto-SLURP는 현재 최첨단 프레임워크들에게 상당한 도전 과제로 작용하며, 진정으로 신뢰할 수 있고 지능적인 다중 에이전트 개인 비서는 여전히 개발 중임을 보여줍니다. 해당 데이터셋과 관련 코드는 https://github.com/lorashen/Auto-SLURP/에서 확인할 수 있습니다.
본 연구는 Financial Modeling World Cup(FMWC) 엑셀 대회에서 도출된 과제들을 활용하여 대규모 언어 모델(LLMs)을 평가하기 위한 새로운 벤치마크를 제시한다. 우리는 기존의 113개 FMWC 과제를 프로그램적으로 평가 가능한 JSON 형식으로 변환하는 방법론을 소개하고, 이를 통해 여러 주요 LLMs의 성능을 비교하였다. 연구 결과는 다양한 과제 범주에서 성능의 상당한 차이를 보여주며, 모델들이 패턴 인식 과제에서는 특정 강점을 보이지만 복잡한 수치 추론에서는 어려움을 겪는 것으로 나타났다. 이 벤치마크는 추상적인 학문적 문제가 아닌 현실적인 비즈니스 지향적 과제에서 LLMs의 역량을 평가하기 위한 표준화된 프레임워크를 제공한다. 본 연구는 마이크로소프트 엑셀을 매일 사용하는 15억 명의 숙련도를 의미 있는 평가 지표로 설정함으로써 학문적 AI 벤치마크와 실용적인 비즈니스 응용 간의 간극을 메우는 데 기여하며, AI 벤치마킹 분야의 성장에 기여한다.