번역이 포함된 일일 선별된 AI 연구 논문
최근 추론 중심 언어 모델의 발전은 검증 가능한 보상과 모델을 정렬시키는 유망한 방법으로서 강화 학습(RL)을 부각시켰습니다. 그러나 RL이 실제로 모델의 추론 능력을 확장하는지, 아니면 기본 모델의 분포에 이미 잠재적으로 존재하는 높은 보상의 출력을 단순히 증폭시키는지, 그리고 RL 컴퓨팅을 지속적으로 확장하는 것이 신뢰할 수 있는 추론 성능 향상으로 이어지는지에 대해서는 여전히 논쟁의 여지가 있습니다. 본 연구에서는, 광범위한 샘플링 하에서도 기본 모델이 접근할 수 없는 새로운 추론 전략을 발견할 수 있는 장기간 RL(ProRL) 훈련을 통해 기존의 가정에 도전합니다. 우리는 KL 발산 제어, 참조 정책 재설정, 그리고 다양한 작업 세트를 통합한 새로운 훈련 방법론인 ProRL을 소개합니다. 실증적 분석을 통해, RL로 훈련된 모델이 다양한 pass@k 평가에서 기본 모델을 지속적으로 능가하며, 특히 기본 모델이 시도 횟수에 관계없이 완전히 실패하는 시나리오에서도 우수한 성능을 보임을 확인했습니다. 또한, 추론 경계의 개선이 기본 모델의 작업 능력과 훈련 기간과 강한 상관관계를 보임을 통해, RL이 시간이 지남에 따라 새로운 해결 공간 영역을 탐색하고 채울 수 있음을 보여줍니다. 이러한 발견들은 RL이 언어 모델의 추론 경계를 의미 있게 확장하는 조건에 대한 새로운 통찰을 제공하며, 장기적인 추론을 위한 RL 연구의 기반을 마련합니다. 추가 연구를 지원하기 위해 모델 가중치를 공개합니다: https://huggingface.co/nvidia/Nemotron-Research-Reasoning-Qwen-1.5B
본 논문은 테스트 시점에서 대규모 추론 모델(Large Reasoning Models, LRMs)의 추론 진행을 조절하기 위한 범용 프레임워크인 AlphaOne(alpha1)을 소개한다. alpha1은 먼저 보편적 매개변수 alpha로 표현되는 스케일링된 사고 단계인 '알파 모멘트(alpha moment)'를 도입한다. 이 스케일링된 '프리-알파 모멘트(pre-alpha moment)' 단계 내에서, alpha1은 추론 전환 토큰의 삽입을 베르누이 확률 과정으로 모델링함으로써 느린 사고 전환을 동적으로 스케줄링한다. 알파 모멘트 이후, alpha1은 '사고 종료 토큰(end-of-thinking token)'을 통해 느린 사고를 결정론적으로 종료함으로써 빠른 추론과 효율적인 답변 생성을 촉진한다. 이 접근법은 기존의 단조 스케일링 방법을 통합하고 일반화하며, 유연하고 밀도 높은 느린-빠른 추론 조절을 가능하게 한다. 수학, 코딩, 과학 분야의 다양한 도전적인 벤치마크에 대한 광범위한 실험 연구를 통해 alpha1의 우수한 추론 능력과 효율성을 입증하였다. 프로젝트 페이지: https://alphaone-project.github.io/
비전-언어 모델(VLMs)의 최근 발전은 비디오에서의 시공간적 관계 이해에 있어 인상적인 진전을 이루었습니다. 그러나 공간 정보가 가려진 경우, 이러한 모델들은 순수한 시간적 패턴을 포착하는 데 어려움을 겪습니다. 우리는 생물학적 신호 전달부터 은밀한 통신에 이르기까지 자연 현상을 반영한, 노이즈와 같은 프레임의 시간적 순열로만 정보가 인코딩된 벤치마크인 SpookyBench를 소개합니다. 흥미롭게도, 인간은 이러한 순열에서 모양, 텍스트, 패턴을 98% 이상의 정확도로 인식할 수 있는 반면, 최첨단 VLMs은 0%의 정확도를 보입니다. 이 성능 격차는 프레임 수준의 공간적 특징에 대한 과도한 의존과 시간적 단서로부터 의미를 추출하지 못하는 중요한 한계를 드러냅니다. 더욱이, 낮은 공간적 신호 대 잡음비(SNR)를 가진 데이터셋에서 훈련된 경우, 모델의 시간적 이해는 인간의 인지보다 더 빠르게 저하되며, 특히 미세한 시간적 추론이 필요한 작업에서 더욱 두드러집니다. 이 한계를 극복하기 위해서는 공간적 의존성을 시간적 처리로부터 분리하는 새로운 아키텍처나 훈련 패러다임이 필요할 것입니다. 우리의 체계적인 분석은 이 문제가 모델 규모와 아키텍처 전반에 걸쳐 지속됨을 보여줍니다. 우리는 시간적 패턴 인식 연구를 촉진하고 인간과 기계의 비디오 이해 간의 격차를 해소하기 위해 SpookyBench를 공개합니다. 데이터셋과 코드는 우리 프로젝트 웹사이트(https://timeblindness.github.io/)에서 이용 가능합니다.
실제 세계 분포의 통계적 구조를 충실히 반영하는 합성 데이터를 생성하는 것은 데이터 모델링에서 근본적인 과제입니다. 기존의 접근 방식은 강력한 매개변수적 가정이나 수동적인 구조 설계에 의존하며, 고차원적이거나 이질적인 영역에서는 어려움을 겪습니다. 최근 대형 언어 모델(LLM)의 발전은 이를 실제 세계 분포에 대한 유연하고 고차원적인 사전 분포로 활용할 가능성을 보여주고 있습니다. 그러나 데이터 합성에 적용할 때, 표준 LLM 기반 샘플링은 비효율적이며 고정된 컨텍스트 제한에 의해 제약을 받고, 통계적 정렬을 보장하지 못합니다. 이를 고려하여, 우리는 LLMSynthor를 소개합니다. 이는 분포적 피드백에 의해 구조를 인지하는 시뮬레이터로 LLM을 변환하는 일반적인 데이터 합성 프레임워크입니다. LLMSynthor는 LLM을 고차원적 의존성을 모델링하기 위한 비모수적 코플라 시뮬레이터로 취급하고, LLM 제안 샘플링을 도입하여 거부 없이 샘플링 효율성을 향상시키는 근거 있는 제안 분포를 생성합니다. 요약 통계 공간에서의 불일치를 최소화함으로써, 반복적인 합성 루프는 실제 데이터와 합성 데이터를 정렬하면서 잠재적 생성 구조를 점차적으로 발견하고 개선합니다. 우리는 LLMSynthor를 프라이버시 민감한 영역(예: 전자상거래, 인구, 이동성)에서 구조화 및 비구조화된 형식을 포함한 이질적인 데이터셋을 사용하여 통제된 환경과 실제 환경에서 평가합니다. LLMSynthor가 생성한 합성 데이터는 높은 통계적 충실도, 실용적 유용성, 그리고 데이터 간 적응성을 보여주며, 이를 경제학, 사회과학, 도시 연구 등 다양한 분야에서 가치 있는 도구로 자리매김합니다.
검증기는 대형 언어 모델(LLM) 추론에서 중요한 역할을 하며, 강화 학습과 같은 사후 훈련 기법에 필수적입니다. 그러나 어려운 코딩 문제에 대해 신뢰할 수 있는 검증기를 얻는 것은 쉽지 않습니다. 왜냐하면 잘 위장된 잘못된 해결책은 신중하게 사람이 작성한 엣지 케이스에 의해서만 발견될 수 있는데, 이러한 엣지 케이스는 합성하기 어렵기 때문입니다. 이 문제를 해결하기 위해 우리는 LLM을 사용한 고품질 테스트 합성을 위한 파이프라인인 HARDTESTGEN을 제안합니다. 이 파이프라인을 통해 47,000개의 문제와 합성된 고품질 테스트를 포함한 포괄적인 경쟁 프로그래밍 데이터셋인 HARDTESTS를 구축했습니다. 기존 테스트와 비교했을 때, HARDTESTGEN 테스트는 LLM 생성 코드를 평가할 때 정밀도가 11.3%포인트, 재현율이 17.5%포인트 더 높은 것으로 나타났습니다. 더 어려운 문제의 경우, 정밀도 향상은 최대 40포인트까지 달할 수 있습니다. 또한 HARDTESTS는 다운스트림 코드 생성 성능을 측정했을 때 모델 훈련에 더 효과적인 것으로 입증되었습니다. 우리는 이 데이터셋과 합성 파이프라인을 https://leililab.github.io/HardTests/에서 오픈소스로 공개할 예정입니다.
본 논문에서는 다중모달 대형 언어 모델(MLLMs)에 경량 확장 기능인 v1을 제안합니다. v1은 추론 과정에서 선택적 시각 재방문을 가능하게 합니다. 기존 MLLMs는 일반적으로 시각 입력을 한 번만 소비하고 내부 메모리만을 기반으로 추론하는 반면, v1은 간단한 포인트-앤-복사(point-and-copy) 메커니즘을 도입하여 모델이 추론 과정 전반에 걸쳐 관련 이미지 영역을 동적으로 검색할 수 있도록 합니다. 이 메커니즘은 기존 아키텍처에 최소한의 수정만으로 추가되며, 모델의 진화하는 가설에 기반하여 시각 토큰에 대한 문맥적 접근을 가능하게 합니다. 이러한 기능을 학습하기 위해, 우리는 30만 개의 다중모달 추론 트레이스와 인터리브된 시각적 근거 주석으로 구성된 v1g 데이터셋을 구축했습니다. MathVista, MathVision, MathVerse 등 세 가지 다중모달 수학적 추론 벤치마크에서의 실험 결과, v1은 특히 세밀한 시각적 참조와 다단계 추론이 필요한 작업에서 비교 가능한 베이스라인 대비 지속적으로 성능을 향상시킴을 보여줍니다. 우리의 결과는 동적 시각 접근이 근거 기반 다중모달 추론을 강화하기 위한 유망한 방향임을 시사합니다. 향후 연구를 지원하기 위해 코드, 모델 및 데이터를 공개할 예정입니다.
스토리 시각화는 주어진 내러티브와 참조 이미지에 맞춰 시각적으로 일관된 이미지 시퀀스를 생성하는 것을 목표로 하며, 최근 생성 모델의 발전으로 상당한 진전을 이루어 왔다. 실제 시나리오에서 스토리 시각화 프레임워크의 성능을 더욱 향상시키기 위해, 우리는 포괄적인 평가 벤치마크인 ViStoryBench를 소개한다. 우리는 다양한 스토리 유형과 예술적 스타일을 포함한 다양한 데이터셋을 수집하여, 모델이 다양한 플롯(예: 코미디, 공포)과 시각적 미학(예: 애니메이션, 3D 렌더링)과 같은 다차원적 측면에서 평가될 수 있도록 했다. ViStoryBench는 내러티브 구조와 시각적 요소의 균형을 신중하게 고려하여, 단일 및 다중 주인공이 등장하는 스토리를 포함하여 모델의 캐릭터 일관성 유지 능력을 테스트한다. 또한, 복잡한 플롯과 정교한 세계 구축을 포함하여 모델이 정확한 시각적 요소를 생성하는 데 있어 도전을 제공한다. 포괄적인 비교를 위해, 우리의 벤치마크는 중요한 측면을 평가하는 다양한 평가 지표를 통합했다. 이 구조화되고 다면적인 프레임워크는 연구자들이 다양한 모델의 강점과 약점을 철저히 파악하여 목표 지향적인 개선을 촉진할 수 있도록 한다.
최근 DeepSeek-R1과 같은 대규모 언어 모델의 추론 능력에 대한 폭발적인 관심은 Group Relative Policy Optimization(GRPO)과 같은 방법을 통해 강화 학습 기반 미세 조정 프레임워크의 놀라운 성공을 입증했습니다. 그러나 이러한 추론 능력은 여전히 충분히 탐구되지 않았으며, DINO 시리즈와 같은 표현 모델을 포함한 비전 기반 모델에서는 특히 부재한 상태입니다. 본 연구에서는 강화 학습을 활용하여 비전 기반 모델의 시각적 문맥 내 추론 능력을 유도하는 첫 번째 시도인 DINO-R1을 제안합니다. 구체적으로, DINO-R1은 그룹 정규화된 정렬 품질을 기반으로 쿼리 수준의 보상을 계산하는, 쿼리 기반 표현 모델을 위해 명시적으로 설계된 새로운 강화 학습 전략인 Group Relative Query Optimization(GRQO)을 도입합니다. 또한, 학습 불안정성을 줄이기 위해 객체성 분포를 안정화하기 위해 KL 정규화를 적용합니다. 이 공동 최적화는 과적합과 분포적 편향을 완화하면서 쿼리 전반에 걸쳐 밀도 높고 표현력 있는 지도를 가능하게 합니다. Grounding-DINO를 기반으로, 시각적 프롬프트 인코더와 시각적 가이드 쿼리 선택 메커니즘을 통합한 DINO-R1 계열 모델을 학습시켰습니다. COCO, LVIS, ODinW에 대한 광범위한 실험을 통해 DINO-R1이 지도 미세 조정 기준선을 크게 능가하며, 개방형 어휘 및 폐쇄형 시각적 프롬프트 시나리오 모두에서 강력한 일반화 성능을 달성함을 입증했습니다.
AI 연구 자동화는 과학적 진보를 가속화할 수 있는 엄청난 잠재력을 지니고 있지만, 현재의 AI 에이전트들은 엄격하고 종단 간(end-to-end) 실험의 복잡성을 다루는 데 어려움을 겪고 있습니다. 우리는 영향력 있는 AI 논문에서 가져온 완전한 연구 실험을 통해 AI 에이전트를 체계적으로 평가하기 위해 새로운 벤치마크인 EXP-Bench를 소개합니다. 연구 질문과 불완전한 시작 코드가 주어졌을 때, EXP-Bench는 AI 에이전트가 가설을 수립하고, 실험 절차를 설계 및 구현하며, 이를 실행하고 결과를 분석하도록 요구합니다. 이러한 복잡하고 진정성 있는 작업을 고품질로 생성할 수 있도록, 우리는 연구 논문과 관련 오픈소스 코드에서 중요한 실험 세부 사항을 추출하고 구조화하는 반자율 파이프라인을 설계했습니다. 이 파이프라인을 통해 EXP-Bench는 51편의 최상위 AI 연구 논문에서 461개의 AI 연구 과제를 선별했습니다. OpenHands 및 IterativeAgent와 같은 선도적인 LLM 기반 에이전트를 EXP-Bench에서 평가한 결과, 설계나 구현 정확성과 같은 개별 실험 측면의 점수가 가끔 20-35%에 도달하지만, 완전히 실행 가능한 실험의 성공률은 단 0.5%에 불과했습니다. 이러한 병목 현상을 식별하고 현실적인 단계별 실험 절차를 제공함으로써, EXP-Bench는 향후 AI 에이전트가 AI 연구 실험을 수행하는 능력을 향상시키기 위한 필수적인 도구로 기능합니다. EXP-Bench는 https://github.com/Just-Curieous/Curie/tree/main/benchmark/exp_bench에서 오픈소스로 제공됩니다.
CAPTCHA는 실제 애플리케이션에서 웹 에이전트를 배포하는 데 있어 중요한 병목 현상으로 작용하며, 종종 엔드투엔드 자동화 작업을 완료하는 것을 방해합니다. 최신 멀티모달 LLM 에이전트는 정적인 인식 작업에서 인상적인 성능을 보여주었지만, CAPTCHA와 같은 상호작용적이고 다단계 추론이 필요한 과제를 처리하는 능력은 대부분 검증되지 않았습니다. 이러한 격차를 해결하기 위해, 우리는 다양한 동적 CAPTCHA 퍼즐을 통해 MLLM 기반 에이전트의 시각적 추론 및 상호작용 능력을 평가하기 위해 특별히 설계된 첫 번째 웹 기반 벤치마크 및 플랫폼인 Open CaptchaWorld를 소개합니다. 우리의 벤치마크는 20가지 현대적인 CAPTCHA 유형을 아우르며, 총 225개의 CAPTCHA로 구성되어 있으며, 각 퍼즐을 해결하는 데 필요한 인지 및 운동 단계의 수를 정량화하는 새로운 메트릭인 CAPTCHA Reasoning Depth로 주석이 달려 있습니다. 실험 결과, 인간은 거의 완벽에 가까운 점수를 지속적으로 달성하는 반면, 최첨단 MLLM 에이전트는 최대 40.0%의 성공률로 상당히 어려움을 겪으며, 이는 인간 수준의 성능인 93.3%에 훨씬 못 미치는 수준입니다. 이는 Open CaptchaWorld가 현재의 멀티모달 에이전트의 한계를 진단하고 더 강력한 멀티모달 추론 시스템의 개발을 안내하는 중요한 벤치마크임을 강조합니다. 코드와 데이터는 이 https URL에서 확인할 수 있습니다.
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 최근 구조화되고 검증 가능한 답변이 필요한 작업에서 최첨단 성능을 달성하며, 대규모 언어 모델(LLM)의 사후 훈련을 위한 강력한 패러다임으로 부상했습니다. 이를 다중 모달 LLM(Multimodal LLM, MLLM)에 적용하는 것은 상당한 기회를 제공하지만, 시각적, 논리적, 공간적 능력을 요구하는 이질적이고 광범위한 시각-언어 작업의 특성으로 인해 복잡성이 증가합니다. 따라서 여러 데이터셋을 사용하여 MLLM을 RLVR로 훈련하는 것은 유익할 수 있지만, 다양한 데이터셋 간의 상호작용으로 인해 상충되는 목표가 발생하며, 이를 해결하기 위해 일반화와 추론 능력을 향상시키기 위한 최적의 데이터셋 혼합 전략이 필요합니다. 우리는 다중 모달 LLM RLVR을 위한 체계적인 사후 훈련 프레임워크를 소개하며, 엄격한 데이터 혼합 문제 공식화와 벤치마크 구현을 특징으로 합니다. 구체적으로, (1) 다양한 검증 가능한 시각-언어 문제를 포함한 데이터셋을 구축하고, 다양한 검증 가능한 보상을 사용한 다중 도메인 온라인 RL 학습을 가능하게 하는 다중 모달 RLVR 프레임워크를 개발했습니다. (2) 데이터 혼합 분포로부터 RL 미세 조정 결과를 예측하고, 이를 통해 최적의 혼합을 최적화하는 데이터 혼합 전략을 제안했습니다. 포괄적인 실험을 통해 다중 도메인 RLVR 훈련이 혼합 예측 전략과 결합될 때 MLLM의 일반적인 추론 능력을 크게 향상시킬 수 있음을 입증했습니다. 우리의 최적 혼합 전략은 균일한 데이터 혼합으로 사후 훈련된 동일 모델 대비 분포 외 벤치마크에서 평균 5.24%의 정확도 향상을, 그리고 미세 조정 전 베이스라인 대비 총 20.74%의 정확도 향상을 달성했습니다.
관절형 물체의 전신 조작(신체 동작, 손 동작, 물체 동작 포함)을 합성하는 것은 가상 인간과 로보틱스 분야에서 광범위한 응용 가능성을 지닌 중요한 과제이면서도 도전적인 작업입니다. 이 문제의 핵심적인 도전 과제는 두 가지입니다. 첫째, 현실적인 전신 동작을 달성하기 위해서는 손과 신체의 나머지 부분 간의 긴밀한 조정이 필요합니다. 이는 조작 과정에서 이들의 움직임이 상호 의존적이기 때문입니다. 둘째, 관절형 물체 조작은 일반적으로 높은 자유도를 가지며 더 높은 정밀도를 요구하는데, 이는 움직이는 부분을 작동시키기 위해 손가락을 특정 영역에 정확히 위치시켜야 하는 경우가 많기 때문입니다. 이러한 도전 과제를 해결하기 위해, 우리는 새로운 조정된 확산 노이즈 최적화 프레임워크를 제안합니다. 구체적으로, 우리는 신체, 왼손, 오른손 각각을 위한 전문화된 확산 모델에 대해 노이즈 공간 최적화를 수행하며, 각 모델은 자체 동작 데이터셋으로 학습되어 일반화 성능을 향상시킵니다. 조정은 인간 운동학적 체인을 따라 흐르는 그래디언트를 통해 자연스럽게 이루어지며, 이는 손 동작 목표에 대응하여 전신 자세를 높은 충실도로 적응시킬 수 있게 합니다. 손-물체 상호작용의 정밀도를 더욱 향상시키기 위해, 우리는 기저 점 집합(BPS) 기반의 통합 표현을 채택합니다. 여기서 엔드 이펙터 위치는 물체 기하학에 사용된 동일한 BPS까지의 거리로 인코딩됩니다. 이 통합 표현은 손과 관절형 물체 부분 간의 미세한 공간적 관계를 포착하며, 결과적으로 생성된 궤적은 확산 노이즈 최적화를 안내하는 목표로 사용되어 매우 정확한 상호작용 동작을 생성합니다. 우리는 광범위한 실험을 통해 우리의 방법이 동작 품질과 물리적 타당성 측면에서 기존 접근법을 능가하며, 물체 자세 제어, 동시에 걷기와 조작 수행, 손 데이터만으로 전신 생성 등 다양한 기능을 가능하게 함을 입증했습니다.
대형 언어 모델(LLMs)은 인터넷에서 방대한 양의 사전 지식을 기억하고 있어 다운스트림 작업에 도움을 주지만, 잘못되거나 편향된 답변을 출력하는 것으로 악명이 높기도 합니다. 본 연구에서는 대중적인 주제에 대한 지식이 시각 언어 모델(VLMs)의 정확도에 미치는 영향을, 객관적인 시각 작업인 계수 및 식별 작업에서 테스트합니다. 우리는 최첨단 VLMs이 강한 편향을 보이며(예: 3줄의 아디다스 로고에 네 번째 줄이 추가된 것을 인식하지 못함), 동물, 로고, 체스, 보드 게임, 착시, 패턴 그리드 등 7가지 다양한 도메인에서 평균 17.05%의 계수 정확도(예: 아디다스와 유사한 로고의 줄 수 세기)를 기록한다는 것을 발견했습니다. 주제 이름을 설명하는 텍스트(예: "아디다스")를 반사실적 이미지에 삽입하면 VLM의 정확도가 더욱 감소합니다. VLMs의 편향이 너무 강력하여 결과를 다시 확인하거나 이미지 세부 사항에만 의존하도록 지시해도 계수 정확도가 평균 +2점밖에 향상되지 않습니다. 본 연구는 VLMs의 흥미로운 실패 모드와 VLM 편향을 테스트하기 위한 자동화된 프레임워크를 제시합니다. 코드와 데이터는 vlmsarebiased.github.io에서 확인할 수 있습니다.
LLM(대형 언어 모델)의 신뢰성에 있어 중요한 요소 중 하나는 신뢰할 수 있는 불확실성 전달입니다. 그러나 LLM은 종종 잘못된 주장을 전달할 때 단언적인 언어를 사용하여, 과도한 의존과 신뢰 저하를 초래합니다. 본 연구는 LLM의 신뢰성 있는 신뢰도 보정에 대한 첫 번째 체계적인 연구를 제시하며, 다양한 모델, 데이터셋, 프롬프트 전략을 아우르는 포괄적인 범위에서 모델의 내재적 불확실성을 충실히 반영하는 언어적 불확실성 표현 능력을 벤치마킹합니다. 연구 결과는 LLM이 이 과제에서 대체로 실패하며, 기존의 개입 방법들이 불충분함을 보여줍니다: 표준 프롬프트 접근법은 미미한 개선만을 제공하며, 기존의 사실성 기반 보정 기술은 오히려 충실한 보정을 해칠 수 있습니다. 이러한 중요한 격차를 해결하기 위해, 우리는 인간의 메타인지에서 영감을 받은 새로운 프롬프트 기반 보정 접근법인 MetaFaith를 소개합니다. MetaFaith는 다양한 모델과 작업 영역에서 충실한 보정을 견고하게 개선하며, 인간 평가 기준으로 최대 61%의 충실도 향상과 83%의 승률을 달성합니다.
텍스트-투-스피치(TTS) 벤치마크는 종종 모델이 미묘하고 의미론적으로 복잡한 텍스트를 얼마나 잘 처리하는지 포착하지 못합니다. EmergentTTS를 기반으로, 우리는 감정, 파라링귀스틱스, 외국어, 구문 복잡성, 복잡한 발음(예: URL, 공식), 질문 등 여섯 가지 도전적인 TTS 시나리오를 포괄하는 EmergentTTS-Eval이라는 포괄적인 벤치마크를 소개합니다. 특히, 우리의 프레임워크는 테스트 케이스 생성과 평가를 모두 자동화하여 벤치마크를 쉽게 확장할 수 있도록 합니다. 소수의 인간이 작성한 시드 프롬프트에서 시작하여, LLM을 사용하여 특정 구조적, 음성적, 운율적 도전 과제를 목표로 반복적으로 확장하여 1,645개의 다양한 테스트 케이스를 생성합니다. 또한, 우리는 모델-어스-어-저지 접근법을 사용하여, 대형 오디오 언어 모델(LALM)을 사용하여 표현된 감정, 운율, 억양, 발음 정확성과 같은 여러 차원에서 음성을 평가합니다. 우리는 11Labs, Deepgram, OpenAI의 4o-mini-TTS와 같은 최첨단 오픈소스 및 독점 TTS 시스템을 EmergentTTS-Eval에서 평가하여, 세밀한 성능 차이를 드러내는 능력을 입증합니다. 결과는 모델-어스-어-저지 접근법이 견고한 TTS 평가와 인간 선호도와의 높은 상관 관계를 제공함을 보여줍니다. 우리는 평가 코드(https://github.com/boson-ai/EmergentTTS-Eval-public)와 데이터셋(https://huggingface.co/datasets/bosonai/EmergentTTS-Eval)을 오픈소스로 공개합니다.
최근, 단안 기하학적 추정(예: 깊이 및 법선)을 지원하기 위해 확산 모델 사전 정보를 활용하는 방법들이 강력한 일반화 능력으로 인해 상당한 주목을 받고 있습니다. 그러나 대부분의 기존 연구는 개별 비디오 프레임의 카메라 좌표계 내에서 기하학적 속성을 추정하는 데 초점을 맞추고 있으며, 확산 모델이 프레임 간 대응 관계를 결정할 수 있는 본질적인 능력을 간과하고 있습니다. 본 연구에서는 적절한 설계와 미세 조정을 통해 비디오 생성 모델의 내재적 일관성을 효과적으로 활용하여 일관된 기하학적 추정을 수행할 수 있음을 보여줍니다. 구체적으로, 우리는 1) 비디오 프레임과 동일한 대응 관계를 공유하는 전역 좌표계의 기하학적 속성을 예측 대상으로 선택하고, 2) 위치 인코딩을 재사용하는 새로운 효율적인 조건화 방법을 도입하며, 3) 동일한 대응 관계를 공유하는 여러 기하학적 속성에 대한 공동 학습을 통해 성능을 향상시킵니다. 우리의 결과는 비디오에서 전역 기하학적 속성을 예측하는 데 있어 우수한 성능을 달성하며, 재구성 작업에 직접 적용할 수 있습니다. 정적 비디오 데이터만으로 훈련된 경우에도, 우리의 접근 방식은 동적 비디오 장면으로 일반화할 수 있는 잠재력을 보여줍니다.
테스트 시간 계산 능력은 멀티모달 대형 언어 모델이 확장된 추론 체인을 생성할 수 있게 하여, 멀티모달 수학 추론과 같은 작업에서 강력한 성능을 발휘하게 했습니다. 그러나 이러한 향상된 추론 능력은 종종 증가된 환각(hallucination)을 동반합니다: 생성물이 길어질수록 모델은 이미지에 기반한 콘텐츠에서 벗어나 언어적 사전 지식에 더 많이 의존하는 경향이 있습니다. 주의력 분석은 더 긴 추론 체인이 시각적 입력에 대한 초점을 감소시켜 환각에 기여한다는 것을 보여줍니다. 이 현상을 체계적으로 연구하기 위해, 우리는 RH-AUC라는 지표를 도입했습니다. 이 지표는 모델의 인식 정확도가 추론 길이에 따라 어떻게 변화하는지를 정량화하여, 모델이 추론 과정에서 시각적 근거를 유지하는지 평가할 수 있게 합니다. 또한, 우리는 추론 능력과 환각 사이의 균형을 평가하기 위해 다양한 멀티모달 작업을 아우르는 진단 벤치마크인 RH-Bench를 공개했습니다. 우리의 분석은 (i) 더 큰 모델이 일반적으로 추론과 인식 사이의 더 나은 균형을 달성하며, (ii) 이 균형은 전체 데이터 양보다는 훈련 데이터의 유형과 도메인에 의해 더 큰 영향을 받는다는 것을 보여줍니다. 이러한 발견들은 추론 품질과 지각적 충실도를 함께 고려하는 평가 프레임워크의 중요성을 강조합니다.
정확한 다국어 텍스트 생성을 위한 확산 모델의 개발은 오랫동안 요구되어 왔지만 여전히 도전적인 과제로 남아 있다. 최근의 방법들은 단일 언어로 텍스트를 렌더링하는 데 있어 진전을 이루었지만, 임의의 언어를 렌더링하는 것은 아직 탐구되지 않은 영역이다. 본 논문은 DiT(Diffusion Transformer)를 기반으로 한 EasyText 텍스트 렌더링 프레임워크를 소개하며, 이는 잡음 제거 잠재 공간을 다국어 문자 토큰으로 인코딩된 문자 토큰과 연결한다. 우리는 제어 가능하고 정확한 텍스트 렌더링을 달성하기 위해 문자 위치 인코딩 및 위치 인코딩 보간 기술을 제안한다. 또한, 100만 개의 다국어 이미지-텍스트 주석으로 구성된 대규모 합성 텍스트 이미지 데이터셋과 20,000개의 고품질 주석 이미지 데이터셋을 구축하여 각각 사전 학습과 미세 조정에 사용하였다. 광범위한 실험과 평가를 통해 우리의 접근 방식이 다국어 텍스트 렌더링, 시각적 품질, 레이아웃 인식 텍스트 통합에서의 효과성과 진보성을 입증하였다.
여러 개방형 가중치 대형 언어 모델(LLM)의 추론 연산이 모델 가중치를 수정하거나 출력 예측을 변경하지 않고도 입력 시퀀스에 대해 정확히 동등한 선형 시스템으로 매핑될 수 있음을 보여준다. 이미지 확산 모델에서 나타나는 국소적 또는 조각별 선형성을 확장하여, 다음 토큰 예측을 위한 주어진 입력 시퀀스에 대한 그래디언트 계산을 전략적으로 변경함으로써 모델의 야코비안이 선형 시스템으로 거의 정확하게 순방향 예측을 재현하도록 한다. 이 접근법을 여러 모델(Llama 3, Gemma 3, Qwen 3, Phi 4, Mistral Ministral 및 OLMo 2, 최대 Llama 3.3 70B Q4)에 걸쳐 시연하고, 분리된 야코비안의 특이값 분해를 통해 이러한 LLM이 매우 낮은 차원의 부분 공간에서 작동하며, 가장 큰 특이 벡터 중 다수가 가장 가능성 높은 출력 토큰과 관련된 개념으로 디코딩됨을 보여준다. 이 접근법은 또한 각 연속 레이어(그리고 그 어텐션 및 MLP 구성 요소)의 작동을 거의 정확한 선형 시스템으로 검토하고 의미론적 개념의 출현을 관찰할 수 있게 한다. 표현력과 전역 비선형성에도 불구하고, 현대 LLM은 거의 정확한 국소 선형 분해를 통해 해석될 수 있으며, 이는 내부 표현에 대한 통찰을 제공하고 다음 토큰 예측 과정에서 해석 가능한 의미 구조를 드러낸다.
스펙티브 디코딩(SD)은 대규모 언어 모델(LLM)의 디코딩 과정을 가속화하는 유망한 방법입니다. SD의 효율성은 주로 드래프트 모델과 검증 모델 간의 일관성에 달려 있습니다. 그러나 기존의 드래프팅 접근 방식은 일반적으로 추가 모듈을 학습해야 하며, 이는 다양한 LLM 간의 호환성을 보장하기 어려울 수 있습니다. 본 논문에서는 자기 스펙티브 디코딩을 위한 컨텍스트 내 레이어 스킵 전략인 CLaSp를 제안합니다. 기존 방법과 달리, CLaSp는 추가 드래프팅 모듈이나 별도의 학습이 필요하지 않습니다. 대신 검증 모델의 중간 레이어를 건너뛰어 압축된 드래프트 모델을 구성하는 플러그 앤 플레이 메커니즘을 사용합니다. 구체적으로, 우리는 마지막 검증 단계의 완전한 은닉 상태를 목표로 활용하여 레이어 스킵 과정을 최적화하는 동적 프로그래밍 알고리즘을 개발했습니다. 이를 통해 CLaSp는 사전 최적화된 레이어 스킵 세트에 의존하지 않고 각 검증 단계 이후에 레이어 스킵 전략을 동적으로 조정할 수 있습니다. 다양한 다운스트림 작업에 대한 실험 결과는 CLaSp가 LLaMA3 시리즈 모델에서 생성된 텍스트의 원본 분포를 변경하지 않고도 1.3배 ~ 1.7배의 속도 향상을 달성함을 보여줍니다.
체인 오브 사고(chain-of-thought) 추론과 강화 학습(RL)이 NLP 분야에서 획기적인 발전을 이끌었지만, 이러한 기술이 생성형 비전 모델에 통합되는 것은 아직 충분히 탐구되지 않았습니다. 우리는 ReasonGen-R1이라는 두 단계 프레임워크를 소개합니다. 이 프레임워크는 먼저 새롭게 생성된 추론 데이터셋에 대한 지도 미세 조정을 통해 자동회귀 이미지 생성기에 명시적인 텍스트 기반 "사고" 능력을 부여하고, 그런 다음 Group Relative Policy Optimization을 사용하여 출력을 개선합니다. 모델이 이미지를 생성하기 전에 텍스트를 통해 추론할 수 있도록, 우리는 시각적 프롬프트와 짝을 이루는 모델 제작 근거 데이터셋을 자동으로 생성 및 공개하여 객체 배치, 스타일, 장면 구성을 통제적으로 계획할 수 있게 합니다. 우리의 GRPO 알고리즘은 사전 학습된 비전 언어 모델에서 얻은 보상 신호를 사용하여 전반적인 시각적 품질을 평가하고, 각 업데이트에서 정책을 최적화합니다. GenEval, DPG, 그리고 T2I 벤치마크에서의 평가 결과, ReasonGen-R1은 강력한 베이스라인과 기존의 최첨단 모델들을 꾸준히 능가하는 성능을 보여줍니다. 자세한 내용은 aka.ms/reasongen에서 확인할 수 있습니다.
본 연구의 목표는 추가적인 학습 없이도 모달리티 편향을 해결함으로써 오디오-비주얼 대형 언어 모델(AV-LLMs)에서 균형 잡힌 다중 모달리티 이해를 향상시키는 것이다. 현재의 AV-LLMs에서는 오디오와 비디오 특성이 일반적으로 디코더에서 함께 처리된다. 이러한 전략은 통합된 다중 모달리티 이해를 용이하게 하지만, 불균형한 학습 신호로 인해 모델이 한 모달리티에 과도하게 의존하는 모달리티 편향을 초래할 수 있다. 이를 완화하기 위해, 우리는 추가적인 학습이나 아키텍처 수정 없이도 효과적인 추론 시 전략인 Fork-Merge Decoding(FMD)을 제안한다. FMD는 먼저 초기 디코더 레이어를 통해 오디오 전용 및 비디오 전용 입력을 처리하여 모달리티별 추론을 수행하고(포크 단계), 이후 남은 레이어에서 결과적인 은닉 상태를 병합하여 공동 추론을 수행한다(병합 단계). 이 접근법은 균형 잡힌 모달리티 기여를 촉진하고 모달리티 간 상호 보완적 정보를 활용한다. 우리는 VideoLLaMA2와 video-SALMONN이라는 두 가지 대표적인 AV-LLMs를 세 가지 벤치마크 데이터셋에서 평가하였다. 실험 결과는 오디오, 비디오, 그리고 결합된 오디오-비주얼 추론에 초점을 맞춘 과제에서 일관된 성능 향상을 보여주며, 강력한 다중 모달리티 이해를 위한 추론 시 개입의 효과를 입증한다.
최근 모델 증류 기술의 발전은 고급 추론 모델(예: DeepSeek-R1, OpenAI의 o1)의 데이터를 활용하여 복잡한 추론 능력을 더 작고 효율적인 학생 모델로 효과적으로 전이할 수 있음을 보여주고 있다. 그러나 일반적인 관행은 잘못된 추론 예제를 폐기하는 거부 샘플링을 사용하며, 이는 가치 있지만 종종 활용되지 않는 데이터이다. 본 논문은 오프라인 환경에서 LLM의 추론 성능을 극대화하기 위해 긍정적 및 부정적 증류 추론 흔적을 효과적으로 활용할 수 있는 방법에 대한 중요한 질문을 다룬다. 이를 위해, 우리는 두 단계 프레임워크인 강화 증류(Reinforcement Distillation, REDI)를 제안한다. 1단계에서는 지도 미세 조정(Supervised Fine-Tuning, SFT)을 통해 긍정적 흔적을 학습한다. 2단계에서는 제안된 REDI 목적 함수를 사용하여 긍정적 및 부정적 흔적을 모두 활용하여 모델을 추가로 개선한다. 이 새로운 목적 함수는 단순하고 참조가 필요 없는 손실 함수로, 이 증류 맥락에서 DPO 및 SimPO와 같은 기존 방법을 능가한다. 우리의 실험적 평가는 수학적 추론 작업에서 REDI가 기준선인 거부 샘플링 SFT 또는 SFT와 DPO/SimPO를 결합한 방법보다 우수함을 보여준다. 특히, Open-R1 데이터셋의 단 131k개의 긍정적 및 부정적 예제를 추가 학습한 Qwen-REDI-1.5B 모델은 MATH-500(pass@1)에서 83.1%의 점수를 달성했다. 이 모델의 성능은 다양한 수학적 추론 벤치마크에서 800k개의 독점 데이터를 추가 학습한 DeepSeek-R1-Distill-Qwen-1.5B 모델과 동등하거나 이를 능가하며, 공개적으로 이용 가능한 데이터를 사용하여 오프라인에서 추가 학습된 1.5B 모델의 새로운 최첨단 기술을 확립했다.
우리는 인간의 손을 자연스러운 인터페이스로 활용하여 다양한 로봇 손으로 세밀한 조작 기술을 전달하는 데이터 수집 및 정책 학습 프레임워크인 DexUMI를 소개한다. DexUMI는 인간의 손과 다양한 로봇 손 간의 구현 격차를 최소화하기 위한 하드웨어 및 소프트웨어 적응을 포함한다. 하드웨어 적응은 착용 가능한 손 외골격을 사용하여 운동학적 격차를 해소한다. 이를 통해 조작 데이터 수집 시 직접적인 햅틱 피드백을 제공하며, 인간의 움직임을 로봇 손의 실현 가능한 움직임으로 적응시킨다. 소프트웨어 적응은 비디오 데이터에서 인간의 손을 고해상도의 로봇 손 인페인팅으로 대체함으로써 시각적 격차를 해소한다. 우리는 DexUMI의 성능을 두 가지 다른 세밀한 로봇 손 하드웨어 플랫폼에서의 포괄적인 실험을 통해 입증하였으며, 평균 작업 성공률 86%를 달성하였다.
멀티모달 대형 언어 모델(MLLMs)은 복잡한 멀티모달 컨텍스트 작업에서 뛰어난 성능을 달성해 왔다. 그러나 이러한 모델들이 멀티모달 컨텍스트를 처리할 때 모달리티 선호 현상을 보이는지에 대한 연구는 아직 미흡한 상태이다. 이 문제를 연구하기 위해, 우리는 먼저 통제된 증거 충돌 시나리오 하에서 MC\textsuperscript{2} 벤치마크를 구축하여 모달리티 선호, 즉 멀티모달 충돌 증거를 기반으로 결정을 내릴 때 한 모달리티를 다른 모달리티보다 선호하는 경향을 체계적으로 평가하였다. 우리의 광범위한 평가 결과, 테스트된 18개의 MLLM 모두 일반적으로 명확한 모달리티 편향을 보이며, 모달리티 선호는 외부 개입에 의해 영향을 받을 수 있음이 밝혀졌다. 심층 분석 결과, 이러한 선호 방향은 MLLM의 잠재 표현 내에서 포착될 수 있음이 확인되었다. 이를 바탕으로, 우리는 추가적인 미세 조정이나 신중하게 설계된 프롬프트 없이도 모달리티 선호를 명시적으로 제어하기 위해 표현 공학에 기반한 프로빙 및 스티어링 방법을 제안한다. 우리의 방법은 원하는 방향으로 모달리티 선호를 효과적으로 증폭시키며, 환각 완화 및 멀티모달 기계 번역과 같은 다운스트림 작업에 적용하여 유망한 개선을 이끌어낸다.
역할극 언어 에이전트(RPLAs)는 현실적이고 매력적인 인간-컴퓨터 상호작용을 위해 캐릭터를 시뮬레이션하는 것을 목표로 합니다. 그러나 기존의 보상 모델은 확장성과 주관적인 대화 선호도에 적응하는 데 어려움을 겪는 경우가 많습니다. 본 연구에서는 이러한 문제를 해결하기 위해 ChARM(Character-based Act-adaptive Reward Model)을 제안합니다. ChARM은 두 가지 혁신을 통해 이러한 과제를 해결합니다: (1) 학습 효율성과 일반화 능력을 크게 향상시키는 행위 적응형 마진, 그리고 (2) 대규모의 레이블이 없는 데이터를 활용하여 훈련 범위를 개선하는 자기 진화 메커니즘. 또한, RPLAs를 위해 특별히 설계된 첫 번째 대규모 선호도 데이터셋인 RoleplayPref를 소개합니다. 이 데이터셋은 1,108개의 캐릭터, 13개의 하위 범주, 그리고 16,888개의 이중 언어 대화로 구성되어 있으며, 전용 평가 벤치마크인 RoleplayEval도 함께 제공됩니다. 실험 결과는 기존의 Bradley-Terry 모델 대비 선호도 순위에서 13%의 개선을 보여줍니다. 또한, ChARM에서 생성된 보상을 선호도 학습 기술(예: 직접 선호도 최적화)에 적용하면 CharacterEval과 RoleplayEval에서 최첨단 성능을 달성합니다. 코드와 데이터셋은 https://github.com/calubkk/ChARM에서 확인할 수 있습니다.
대형 언어 모델(LLM)은 페르소나를 채택하고 역할극을 수행하는 데 있어 뛰어난 능력을 보여줍니다. 그러나 이러한 능력을 평가하는 것은 상당한 도전 과제로, 인간 평가는 자원이 많이 소모되며 자동화된 평가는 편향될 수 있습니다. 이를 해결하기 위해 우리는 감정 이해, 의사결정, 도덕적 정렬, 그리고 캐릭터 일관성이라는 네 가지 핵심 차원에 걸쳐 LLM의 역할극 능력을 평가하기 위한 새로운 벤치마크인 Role-Playing Eval(RPEval)을 소개합니다. 이 글은 RPEval의 구축 과정을 상세히 설명하고 베이스라인 평가 결과를 제시합니다. 우리의 코드와 데이터셋은 https://github.com/yelboudouri/RPEval에서 확인할 수 있습니다.
스케일링 법칙이 자연어 처리와 컴퓨터 비전 분야를 혁신적으로 변화시켰음에도 불구하고, 3D 포인트 클라우드 이해는 아직 그 단계에 도달하지 못했습니다. 이는 3D 데이터셋의 상대적으로 작은 규모와 데이터 자체의 다양한 출처에 기인할 수 있습니다. 포인트 클라우드는 다양한 센서(예: 깊이 카메라, LiDAR)를 통해 다양한 도메인(예: 실내, 실외)에서 캡처되며, 각각 고유한 스캐닝 패턴, 샘플링 밀도, 그리고 의미론적 편향을 도입합니다. 이러한 도메인 이질성은 특히 추론 시간에 도메인 레이블에 접근할 수 없다는 현실적인 제약 하에서 통합 모델을 대규모로 훈련하는 데 주요 장벽으로 작용합니다. 본 연구에서는 3D 인식에서 대규모 교차 도메인 일반화를 가능하게 하는 Mixture-of-Experts 아키텍처인 Point-MoE를 제안합니다. 우리는 혼합 도메인 데이터로 훈련할 때 표준 포인트 클라우드 백본이 성능이 크게 저하되는 반면, 단순한 top-k 라우팅 전략을 사용한 Point-MoE는 도메인 레이블에 접근하지 않고도 전문가를 자동으로 특수화할 수 있음을 보여줍니다. 우리의 실험은 Point-MoE가 강력한 다중 도메인 베이스라인을 능가할 뿐만 아니라 보이지 않는 도메인에 대해 더 나은 일반화 성능을 보인다는 것을 입증합니다. 이 연구는 3D 이해를 위한 확장 가능한 경로를 강조합니다: 모델이 다양한 3D 데이터에서 구조를 발견하도록 하는 것, 즉 수동 큐레이션이나 도메인 감독을 통해 구조를 강제하는 것이 아니라.
테스트 타임 최적화의 최근 발전은 대형 언어 모델(LLM)이 수학 및 코딩과 같은 매우 복잡한 문제를 해결할 수 있는 놀라운 추론 능력을 가능하게 했습니다. 그러나 멀티모달 LLM(MLLM)의 추론 능력은 여전히 크게 뒤처져 있으며, 특히 복잡한 비디오-언어 작업에서 더욱 두드러집니다. 이 문제를 해결하기 위해, 우리는 복잡한 비디오 이해를 두 단계로 분해하는 SiLVR(Simple Language-based Video Reasoning) 프레임워크를 제안합니다. 첫 번째 단계에서 SiLVR은 짧은 클립 캡션과 오디오/음성 자막과 같은 다감각 입력을 사용하여 원시 비디오를 언어 기반 표현으로 변환합니다. 두 번째 단계에서는 언어 설명을 강력한 추론 LLM에 입력하여 복잡한 비디오-언어 이해 작업을 해결합니다. 긴 문맥의 다감각 입력을 처리하기 위해, 우리는 적응형 토큰 축소 기법을 사용하여 토큰을 샘플링할 시간적 세분성을 동적으로 결정합니다. 우리의 간단하고 모듈화된, 훈련이 필요 없는 비디오 추론 프레임워크는 Video-MME(긴 버전), Video-MMMU(이해), Video-MMLU, CGBench, 그리고 EgoLife에서 최고의 결과를 달성했습니다. 또한, 비디오 추론 능력에 초점을 맞춘 우리의 실증적 연구는 비디오에 대해 명시적으로 훈련되지 않았음에도 불구하고, 강력한 추론 LLM이 비디오, 음성, 오디오로부터 다감각 입력 정보를 효과적으로 집계하여 복잡한 시간적, 인과적, 긴 문맥, 그리고 지식 습득 추론 작업을 수행할 수 있음을 보여줍니다. 코드는 https://github.com/CeeZh/SILVR에서 확인할 수 있습니다.
과학적 성장이 기하급수적으로 이루어지는 시대에, 새로운 연구 아이디어를 식별하는 것은 학계에서 중요하면서도 도전적인 과제입니다. 잠재력이 있음에도 불구하고, 적절한 벤치마크 데이터셋의 부재는 신규성 탐지 연구를 방해하고 있습니다. 더욱 중요한 것은, 기존의 자연어 처리 기술(예: 검색 후 교차 검증)을 단순히 적용하는 것이 텍스트 유사성과 아이디어 개념 간의 차이로 인해 만능 해결책이 될 수 없다는 점입니다. 본 논문에서는 대규모 언어 모델(LLMs)을 활용하여 과학적 신규성 탐지(ND)를 수행하고, 마케팅과 자연어 처리 분야의 두 가지 새로운 데이터셋을 제안합니다. 신규성 탐지를 위한 신중하게 구성된 데이터셋을 구축하기 위해, 논문 간의 관계를 기반으로 클로저 집합을 추출하고, 이를 LLMs를 통해 주요 아이디어를 요약하는 방법을 제안합니다. 아이디어 개념을 포착하기 위해, LLMs로부터 아이디어 수준의 지식을 추출하여 유사한 개념을 가진 아이디어를 정렬하는 경량 검색기를 훈련시키는 방법을 제안합니다. 이를 통해 LLM 신규성 탐지를 위한 효율적이고 정확한 아이디어 검색이 가능해집니다. 실험 결과, 제안된 벤치마크 데이터셋에서 아이디어 검색 및 신규성 탐지 작업에서 우리의 방법이 다른 방법들을 지속적으로 능가함을 보여줍니다. 코드와 데이터는 https://anonymous.4open.science/r/NoveltyDetection-10FB/에서 확인할 수 있습니다.
대조적 언어-이미지 사전학습(Contrastive Language-Image Pre-training, CLIP)은 기초 모델로 자리 잡아 다양한 시각 및 멀티모달 작업에 적용되어 왔습니다. 그러나 최근 연구에 따르면, CLIP은 이미지의 세부 차이를 구분하는 데 한계가 있으며, 밀집 예측(dense-prediction) 및 시각 중심의 멀티모달 작업에서 최적의 성능을 보이지 못합니다. 따라서 본 연구는 기존 CLIP 모델을 개선하여 가능한 한 많은 시각적 세부 사항을 포착하는 데 초점을 맞추고 있습니다. 우리는 특정 유형의 생성 모델인 unCLIP이 이러한 목표를 달성하기에 적합한 프레임워크를 제공한다는 사실을 발견했습니다. 구체적으로, unCLIP은 CLIP 이미지 임베딩을 조건으로 이미지 생성기를 학습시킵니다. 즉, CLIP 이미지 인코더를 역전파(invert)합니다. CLIP과 같은 판별 모델과 비교할 때, 생성 모델은 이미지의 데이터 분포를 학습하도록 훈련되기 때문에 이미지 세부 사항을 더 잘 포착할 수 있습니다. 또한, unCLIP의 조건부 입력 공간은 CLIP의 원래 이미지-텍스트 임베딩 공간과 일치합니다. 따라서 우리는 unCLIP을 역전파하여(이를 un^2CLIP이라 명명) CLIP 모델을 개선할 것을 제안합니다. 이를 통해 개선된 이미지 인코더는 unCLIP의 시각적 세부 사항 포착 능력을 얻으면서도 원래 텍스트 인코더와의 정렬을 동시에 유지할 수 있습니다. 우리는 개선된 CLIP을 CLIP이 적용된 다양한 작업에서 평가했으며, 이는 도전적인 MMVP-VLM 벤치마크, 밀집 예측 개방형 어휘 분할(open-vocabulary segmentation) 작업, 그리고 멀티모달 대형 언어 모델 작업을 포함합니다. 실험 결과, un^2CLIP은 원래의 CLIP과 이전의 CLIP 개선 방법들을 크게 능가하는 것으로 나타났습니다. 코드와 모델은 https://github.com/LiYinqi/un2CLIP에서 확인할 수 있습니다.
GPT-4o와 같은 대형 언어 모델(LLMs)은 적절한 프롬프트를 통해 다양한 복잡한 작업을 처리할 수 있다. 토큰 비용이 감소함에 따라, 실용적인 애플리케이션을 위해 소형 언어 모델(SLMs)을 미세 조정하는 것의 장점 — 더 빠른 추론, 더 낮은 비용 — 이 더 이상 명확하지 않을 수 있다. 본 연구에서는 구조화된 출력이 필요한 도메인 특화 작업에 대해 SLMs가 여전히 품질상의 우위를 가진다는 증거를 제시한다. 우리는 JSON 형식의 로우코드 워크플로우 생성 작업에서 SLM을 미세 조정하는 것과 LLM에 프롬프트를 제공하는 것을 비교한다. 좋은 프롬프트가 합리적인 결과를 얻을 수 있지만, 미세 조정은 평균적으로 품질을 10% 향상시키는 것을 관찰했다. 또한 체계적인 오류 분석을 수행하여 모델의 한계를 밝혀냈다.
대규모 언어 모델(LLMs)은 놀라운 잠재력을 보여주었지만, 전통적인 미세 조정(finetuning)을 통해 지속적으로 개선하는 것은 여전히 어려운 과제로 남아 있으며, 특히 다른 특화된 LLMs의 기능을 통합할 때 더욱 그러하다. 앙상블(ensemble) 및 가중치 병합(weight merging)과 같은 널리 사용되는 방법들은 상당한 메모리를 요구하며, 변화하는 데이터 환경에 적응하는 데 어려움을 겪는다. 최근의 연구들은 여러 LLMs의 지식을 단일 목표 모델로 전달하려고 시도했지만, 후보 선택과 학습 파이프라인의 유연성이 부족하여 작업 간 간섭과 성능 저하를 겪고 있다. 이러한 문제를 해결하기 위해, 우리는 다양한 LLMs로부터 지식을 적응적으로 선택하고 통합하여 단일의 더 강력한 모델을 구축하는 프레임워크를 제안하며, 이는 앙상블의 높은 메모리 오버헤드와 가중치 병합의 경직성을 피한다. 구체적으로, 우리는 점수를 기반으로 가장 관련성이 높은 소스 LLMs를 식별하는 적응형 선택 네트워크를 설계하여 지식 간섭을 줄인다. 또한, 우리는 후보 LLMs의 고유한 강점을 고려한 동적 가중치 융합 전략과, 선택자가 단일 소스 하위 집합에 수렴하는 것을 방지하는 피드백 기반 손실 함수를 제안한다. 실험 결과는 우리의 방법이 기존 접근법에 비해 지식 간섭을 최대 50%까지 줄이면서도 더 안정적이고 확장 가능한 지식 통합 과정을 가능하게 함을 보여준다. 코드는 https://github.com/ZLKong/LLM_Integration에서 확인할 수 있다.
순환 신경망에서 은닉 유닛의 역할은 일반적으로 메모리 모델링으로 간주되며, 연구는 게이트 메커니즘을 통해 정보 보존을 강화하는 데 초점을 맞추고 있습니다. 덜 탐구된 관점은 은닉 유닛을 수동적인 메모리 저장소가 아니라 네트워크가 수행하는 계산에 능동적으로 참여하는 주체로 보는 것입니다. 본 연구에서는 은닉 유닛과 입력 임베딩 간의 곱셈적 상호작용을 포함하는 이중 선형 연산을 재조명합니다. 우리는 이론적 및 실증적으로 이러한 연산이 상태 추적 작업에서 은닉 상태의 진화를 표현하기 위한 자연스러운 귀납적 편향을 구성함을 보여줍니다. 이러한 작업은 은닉 유닛이 네트워크의 동작에 능동적으로 기여해야 하는 가장 단순한 유형의 작업입니다. 또한, 이중 선형 상태 업데이트가 복잡성이 증가하는 상태 추적 작업에 대응하는 자연스러운 계층 구조를 형성하며, Mamba와 같은 인기 있는 선형 순환 네트워크가 이 계층 구조의 가장 낮은 복잡성 중심에 위치함을 보여줍니다.
대형 언어 모델(LLMs)은 다양한 자연어 처리 작업에서 뛰어난 성능을 보이지만, 유해한 콘텐츠를 생성하거나 악의적인 목적으로 악용될 가능성이 여전히 존재합니다. 이러한 위험을 완화하기 위해 지도 미세 조정(SFT)을 통해 안전성 정렬 데이터셋이 도입되었지만, 이러한 데이터셋은 종종 포괄적인 위험 범위를 제공하지 못합니다. 대부분의 기존 데이터셋은 주로 어휘 다양성에 초점을 맞추는 반면, 다른 중요한 차원을 간과하는 경향이 있습니다. 이러한 한계를 해결하기 위해, 우리는 세 가지 필수 차원(어휘 다양성, 악의적 의도, 탈옥 전술)에 걸쳐 정렬 데이터셋의 위험 범위를 체계적으로 측정하기 위한 새로운 분석 프레임워크를 제안합니다. 또한, 우리는 TRIDENT라는 자동화된 파이프라인을 소개합니다. 이 파이프라인은 페르소나 기반의 제로샷 LLM 생성을 활용하여 이러한 차원에 걸쳐 다양하고 포괄적인 지침을 생성합니다. 각 유해 지침은 윤리적으로 정렬된 응답과 짝을 이루며, 그 결과 TRIDENT-Core(26,311개의 예제)와 TRIDENT-Edge(18,773개의 예제)라는 두 가지 데이터셋이 생성됩니다. TRIDENT-Edge를 사용하여 Llama 3.1-8B를 미세 조정한 결과, WildBreak 데이터셋으로 미세 조정된 최고 성능의 베이스라인 모델과 비교하여 평균 14.29%의 Harm Score 감소와 20%의 공격 성공률 감소를 달성함으로써 상당한 개선을 보였습니다.
의미적 텍스트 유사성(Semantic Textual Similarity, STS)은 자연어 처리(NLP)에서 중요한 과제로, 정보 검색, 클러스터링, 그리고 텍스트 간의 의미적 관계 이해와 같은 응용 분야를 가능하게 합니다. 그러나 아랍어에 대한 이 분야의 연구는 고품질 데이터셋과 사전 학습된 모델의 부족으로 인해 여전히 제한적입니다. 이러한 자원의 부족은 아랍어 텍스트의 의미적 유사성에 대한 정확한 평가와 발전을 제한해 왔습니다. 본 논문은 MTEB 벤치마크 내에서 의미적 텍스트 유사성 작업에서 최첨단 성능을 달성하는 General Arabic Text Embedding(GATE) 모델을 소개합니다. GATE는 Matryoshka Representation Learning과 아랍어 트리플릿 데이터셋을 활용한 하이브리드 손실 훈련 방식을 사용하여, 미세한 의미적 이해가 요구되는 작업에서 모델 성능을 향상시키는 데 필수적인 자연어 추론을 수행합니다. GATE는 OpenAI를 포함한 더 큰 모델들을 능가하며, STS 벤치마크에서 20-25%의 성능 향상을 보여주며, 아랍어의 독특한 의미적 뉘앙스를 효과적으로 포착합니다.
대형 언어 모델(LLM)은 형식 명세를 생성함으로써 자동화된 추론의 민주화에 있어 상당한 가능성을 보여줍니다. 그러나 근본적인 긴장이 존재합니다: LLM은 확률적이지만, 형식 검증은 결정론적 보장을 요구합니다. 본 논문은 LLM이 생성한 형식적 산출물에서의 실패 모드와 불확실성 정량화(UQ)를 포괄적으로 조사함으로써 이러한 인식론적 간극을 해소합니다. 5개의 최첨단 LLM에 대한 체계적인 평가를 통해, 만족도 모듈로 이론(SMT) 기반 자동 형식화가 정확도에 미치는 도메인별 영향(+34.8%의 논리적 작업에서 -44.5%의 사실적 작업까지)을 밝혀냈으며, 토큰 확률의 엔트로피와 같은 기존의 UQ 기법이 이러한 오류를 식별하지 못함을 확인했습니다. 우리는 LLM 출력을 모델링하기 위해 확률적 문맥 자유 문법(PCFG) 프레임워크를 도입하여 정제된 불확실성 분류 체계를 제시합니다. 불확실성 신호는 작업에 따라 다르며(예: 논리 작업에서 문법 엔트로피, AUROC>0.93), 이러한 신호들의 경량 융합은 선택적 검증을 가능하게 하여 최소한의 기권으로 오류를 크게 줄이고(14-100%), LLM 기반 형식화를 신뢰할 수 있는 엔지니어링 분야로 전환합니다.
AI 에이전트는 제품 검색, 협상, 거래 실행과 같은 작업을 지원하기 위해 소비자 대상 애플리케이션에서 점점 더 많이 사용되고 있습니다. 본 논문에서는 소비자와 판매자 모두가 AI 에이전트에게 협상과 거래를 완전히 자동화할 수 있는 권한을 부여하는 미래 시나리오를 탐구합니다. 우리는 두 가지 핵심 질문에 답하고자 합니다: (1) 서로 다른 LLM 에이전트가 사용자에게 유리한 거래를 확보하는 능력에 차이가 있는가? (2) 소비자 시장에서 AI 에이전트를 통해 거래를 완전히 자동화할 때 발생하는 위험은 무엇인가? 이러한 질문을 해결하기 위해, 우리는 다양한 LLM 에이전트의 성능을 실제 협상 및 거래 환경에서 평가하는 실험 프레임워크를 개발했습니다. 연구 결과에 따르면, AI가 중재하는 거래는 본질적으로 불균형적인 게임이며, 서로 다른 에이전트가 사용자에게 상당히 다른 결과를 가져다줄 수 있음이 밝혀졌습니다. 더욱이, LLM의 행동적 이상 현상은 소비자와 판매자 모두에게 과소비 또는 불합리한 거래 수락과 같은 금전적 손실을 초래할 수 있습니다. 이러한 결과는 자동화가 효율성을 개선할 수 있지만 동시에 상당한 위험을 초래할 수 있음을 강조합니다. 사용자는 비즈니스 결정을 AI 에이전트에 위임할 때 주의를 기울여야 합니다.
대규모 언어 모델(LLM)의 새로운 능력이 등장하면서, 이들이 즉각적으로 유해한 목적으로 악용될 가능성에 대한 우려가 제기되고 있습니다. 이러한 우려를 완화하기 위한 핵심 접근 방식은 모델에 대한 유해한 질의를 탐지하는 것입니다. 현재의 탐지 방식은 완벽하지 않으며, 특히 모델 능력의 불일치한 일반화를 악용하는 공격(예: 저자원 언어로 작성된 프롬프트 또는 이미지 및 오디오와 같은 비텍스트 방식으로 제공된 프롬프트)에 취약합니다. 이러한 문제를 해결하기 위해, 우리는 언어와 방식에 걸쳐 유해한 프롬프트를 탐지하는 접근법인 OMNIGUARD를 제안합니다. 우리의 접근법은 (i) LLM/MLLM의 내부 표현 중 언어나 방식에 걸쳐 정렬된 것을 식별한 다음, (ii) 이를 사용하여 언어나 방식에 구애받지 않는 유해 프롬프트 탐지 분류기를 구축하는 것입니다. OMNIGUARD는 다국어 환경에서 가장 강력한 기준선 대비 유해 프롬프트 분류 정확도를 11.57% 향상시키고, 이미지 기반 프롬프트에서는 20.44% 향상시키며, 오디오 기반 프롬프트에서는 새로운 최첨단 기술(SOTA)을 설정합니다. 또한, 생성 과정에서 계산된 임베딩을 재활용함으로써 OMNIGUARD는 매우 효율적입니다(다음으로 빠른 기준선 대비 약 120배 빠름). 코드와 데이터는 https://github.com/vsahil/OmniGuard에서 확인할 수 있습니다.
법률 사례 검색(Legal Case Retrieval, LCR)은 질의 사례와 관련된 사례를 검색하는 작업으로, 법률 전문가들이 연구와 의사결정을 수행하는 데 있어 기본적인 과제이다. 그러나 기존의 LCR 연구는 두 가지 주요 한계에 직면해 있다. 첫째, 상대적으로 소규모의 검색 코퍼스(예: 100-55K 사례)를 기반으로 평가되며, 좁은 범위의 형사 질의 유형만을 사용함으로써 실제 법률 검색 시나리오의 복잡성을 충분히 반영하지 못한다. 둘째, 임베딩 기반 또는 어휘 매칭 방법에 의존함으로써 제한된 표현과 법적으로 관련 없는 매칭 결과를 초래하는 경우가 많다. 이러한 문제를 해결하기 위해, 본 연구는 다음과 같은 내용을 제안한다: (1) 120만 건 이상의 법률 사례를 포함하고 411가지 다양한 범죄 유형을 질의로 다루는 최초의 대규모 한국어 LCR 벤치마크인 LEGAR BENCH; (2) 질의 사례에 대한 법적 요소 추론을 수행하고 제약된 디코딩을 통해 대상 사례에 기반한 내용을 직접 생성하는 검색 모델인 LegalSearchLM. 실험 결과, LegalSearchLM은 LEGAR BENCH에서 기준 모델 대비 6-20%의 성능 향상을 보이며 최신 기술 수준의 성능을 달성했다. 또한, 도메인 내 데이터로 훈련된 단순 생성 모델 대비 15% 더 우수한 성능을 보이며 도메인 외 사례에 대한 강력한 일반화 능력을 입증했다.
현대 문서 검색 임베딩 방법의 한계는 일반적으로 동일한 문서의 구절(청크)을 독립적으로 인코딩하여, 개별 청크 표현을 크게 개선할 수 있는 문서의 나머지 부분에서의 중요한 맥락 정보를 종종 간과한다는 점입니다. 본 연구에서는 문서 전체의 맥락을 활용하는 능력을 평가하기 위해 설계된 벤치마크인 ConTEB(Context-aware Text Embedding Benchmark)를 소개합니다. 우리의 결과는 최첨단 임베딩 모델들이 맥락이 필요한 검색 시나리오에서 어려움을 겪는 것을 보여줍니다. 이 한계를 해결하기 위해, 우리는 InSeNT(In-sequence Negative Training)라는 새로운 대조적 사후 학습 접근 방식을 제안합니다. 이 방법은 후기 청킹 풀링과 결합되어 계산 효율성을 유지하면서 맥락 표현 학습을 강화합니다. 우리의 방법은 기본 모델 성능을 희생하지 않으면서 ConTEB에서의 검색 품질을 크게 개선합니다. 또한, 우리의 방법으로 임베딩된 청크는 최적이 아닌 청킹 전략과 더 큰 검색 코퍼스 크기에 대해 더 강건한 것으로 나타났습니다. 우리는 모든 아티팩트를 https://github.com/illuin-tech/contextual-embeddings에서 오픈소스로 공개합니다.
본 논문은 LLM(대형 언어 모델) 안전성 연구의 언어적 다양성을 종합적으로 분석하며, 해당 분야가 영어 중심적으로 이루어지고 있음을 강조한다. 2020년부터 2024년까지 *ACL 주요 NLP 학회 및 워크숍에서 발표된 약 300편의 논문을 체계적으로 검토한 결과, LLM 안전성 연구에서 상당한 언어 격차가 존재하며, 이는 점점 더 커지고 있음을 확인하였다. 심지어 고자원 비영어권 언어들도 최소한의 관심만 받고 있으며, 비영어권 언어는 독립적인 언어로 연구되는 경우가 드물고, 영어 안전성 연구는 언어 문서화 관행이 미흡한 것으로 나타났다. 다국어 안전성 연구를 촉진하기 위해, 본 연구는 설문 조사를 바탕으로 여러 가지 권고 사항을 제시하고, 안전성 평가, 훈련 데이터 생성, 그리고 교차 언어 안전성 일반화에 대한 세 가지 구체적인 미래 연구 방향을 제안한다. 본 연구의 조사 결과와 제안된 방향을 바탕으로, 해당 분야는 다양한 글로벌 인구를 위한 더 견고하고 포용적인 AI 안전성 관행을 발전시킬 수 있을 것이다.