번역이 포함된 일일 선별된 AI 연구 논문
하나의 훈련 예시를 사용한 검증 가능한 보상 강화 학습(1-shot RLVR)이 대규모 언어 모델(LLMs)의 수학적 추론 능력을 촉진하는 데 효과적임을 보여줍니다. RLVR을 기본 모델인 Qwen2.5-Math-1.5B에 적용하여, MATH500에서 모델 성능을 36.0%에서 73.6%로 향상시키고, 여섯 가지 일반적인 수학적 추론 벤치마크에서의 평균 성능을 17.6%에서 35.7%로 개선하는 단일 예시를 식별했습니다. 이 결과는 앞서 언급한 예시를 포함하는 1.2k DeepScaleR 부분집합(MATH500: 73.6%, 평균: 35.9%)을 사용하여 얻은 성능과 일치합니다. 다양한 모델(Qwen2.5-Math-7B, Llama3.2-3B-Instruct, DeepSeek-R1-Distill-Qwen-1.5B), RL 알고리즘(GRPO 및 PPO), 그리고 다른 수학 예시들(대부분이 단일 훈련 예시로 사용될 때 MATH500에서 약 30% 이상의 개선을 가져옴)에서도 유사한 상당한 개선이 관찰되었습니다. 또한, 1-shot RLVR 동안 흥미로운 현상들을 식별했는데, 이에는 도메인 간 일반화, 자기 반성 빈도의 증가, 그리고 훈련 정확도가 포화된 후에도 지속되는 테스트 성능 개선(이를 포화 후 일반화라고 명명)이 포함됩니다. 더 나아가, 1-shot RLVR의 효과가 주로 정책 경사 손실에서 비롯됨을 확인하여 이를 "그로킹(grokking)" 현상과 구별했습니다. 또한, 1-shot RLVR 훈련에서 탐색 촉진(예: 적절한 계수로 엔트로피 손실 추가)의 중요한 역할을 보여줍니다. 보너스로, 결과 보상 없이 엔트로피 손실만을 적용하는 것만으로도 Qwen2.5-Math-1.5B의 MATH500 성능이 27.4% 크게 향상됨을 관찰했습니다. 이러한 발견들은 RLVR 데이터 효율성에 대한 미래 연구에 영감을 주고, RLVR의 최근 진전과 기본 메커니즘을 재검토하도록 장려할 수 있습니다. 우리의 코드, 모델, 데이터는 https://github.com/ypwang61/One-Shot-RLVR에서 오픈 소스로 제공됩니다.
어떤 과학 분야의 발전에 있어서 진척도를 측정하는 것은 근본적으로 중요합니다. 벤치마크가 점점 더 중심적인 역할을 하게 되면서, 왜곡에 노출될 가능성도 커지고 있습니다. Chatbot Arena는 가장 우수한 AI 시스템을 순위 매기기 위한 주요 리더보드로 자리 잡았습니다. 그러나 본 연구에서 우리는 체계적인 문제를 발견했으며, 이로 인해 왜곡된 경쟁 환경이 조성되었음을 확인했습니다. 우리는 공개 전에 여러 변형을 테스트하고 원할 경우 점수를 철회할 수 있는 소수의 제공업체가 비공개 비밀 테스트 관행으로 이익을 보고 있음을 발견했습니다. 이러한 제공업체들이 최고 점수를 선택할 수 있는 능력은 성능 결과의 선택적 공개로 인해 Arena 점수가 편향되게 만든다는 것을 입증했습니다. 극단적인 사례로, Meta가 Llama-4 출시를 앞두고 테스트한 27개의 비공개 LLM 변형을 확인했습니다. 또한, 독점적인 폐쇄형 모델이 더 높은 비율(배틀 횟수)로 샘플링되며, 오픈 웨이트 및 오픈소스 대안에 비해 Arena에서 제거되는 모델이 더 적다는 것도 입증했습니다. 이러한 정책들은 시간이 지남에 따라 큰 데이터 접근 비대칭을 초래합니다. Google과 OpenAI와 같은 제공업체는 각각 Arena의 전체 데이터 중 약 19.2%와 20.4%를 받은 것으로 추정됩니다. 반면, 83개의 오픈 웨이트 모델을 합쳐도 전체 데이터의 약 29.7%만 받은 것으로 추정됩니다. 우리는 Chatbot Arena 데이터에 접근하는 것이 상당한 이점을 가져다준다는 것을 보여줍니다; 보수적인 추정치에 따르면, 제한된 추가 데이터만으로도 Arena 분포에서 최대 112%의 상대적 성능 향상을 이끌어낼 수 있습니다. 이러한 역학이 함께 작용하여 일반적인 모델 품질보다는 Arena 특정 역학에 과적합되는 결과를 초래합니다. Arena는 이 소중한 평가 플랫폼을 유지하는 주최자와 열린 커뮤니티의 상당한 노력에 기반을 두고 있습니다. 우리는 Chatbot Arena의 평가 프레임워크를 개혁하고, 이 분야에서 더 공정하고 투명한 벤치마킹을 촉진하기 위한 실행 가능한 권고안을 제시합니다.
검색 증강 생성(Retrieval-Augmented Generation, RAG)은 외부 지식을 활용해 모델 응답의 사실적 정확성을 향상시키는 데 상당한 가능성을 보여왔습니다. 그러나 대부분의 기존 RAG 접근법은 텍스트 전용 코퍼스에 국한되어 있으며, 최근 이미지와 비디오와 같은 다른 모달리티로 RAG를 확장하려는 시도가 있지만, 이들은 일반적으로 단일 모달리티 특정 코퍼스에서 작동합니다. 반면, 실제 세계의 질문은 필요한 지식의 유형이 매우 다양하며, 단일 유형의 지식 소스로는 이를 해결할 수 없습니다. 이를 해결하기 위해 우리는 다양한 모달리티와 세분화 수준을 가진 이종 소스에서 지식을 검색하고 통합하도록 설계된 새로운 RAG 프레임워크인 UniversalRAG를 소개합니다. 구체적으로, 모든 모달리티를 단일 통합 코퍼스에서 파생된 통일된 표현 공간으로 강제할 경우 모달리티 간 격차가 발생하여 검색이 질문과 동일한 모달리티의 항목을 선호하는 현상을 관찰한 바, 이를 해결하기 위해 가장 적합한 모달리티 특정 코퍼스를 동적으로 식별하고 그 안에서 대상 검색을 수행하는 모달리티 인식 라우팅 메커니즘을 제안합니다. 또한, 모달리티를 넘어 각 모달리티를 여러 세분화 수준으로 조직화하여 질문의 복잡성과 범위에 맞춘 세밀한 검색이 가능하도록 합니다. 우리는 UniversalRAG를 여러 모달리티에 걸친 8개의 벤치마크에서 검증하여 모달리티 특정 및 통합 기준선 대비 우수성을 입증했습니다.
우리는 일반적인 추론 작업을 위해 특별히 훈련된 첫 번째 검색기인 ReasonIR-8B를 소개합니다. 기존 검색기들은 추론 작업에서 제한된 성능 향상만을 보여왔는데, 이는 부분적으로 기존 훈련 데이터셋이 문서와 직접적으로 연결된 짧은 사실적 질문에 초점을 맞추고 있기 때문입니다. 우리는 각 문서에 대해 도전적이고 관련성 높은 질문과, 표면적으로는 관련성이 있지만 실제로는 도움이 되지 않는 어려운 부정적 샘플을 생성하는 합성 데이터 생성 파이프라인을 개발했습니다. 합성 데이터와 기존 공개 데이터를 혼합하여 훈련한 ReasonIR-8B는 널리 사용되는 추론 중심 정보 검색(IR) 벤치마크인 BRIGHT에서 리랭커 없이 29.9 nDCG@10, 리랭커와 함께 36.9 nDCG@10라는 새로운 최고 성적을 달성했습니다. RAG 작업에 적용했을 때, ReasonIR-8B는 MMLU와 GPQA 성능을 각각 6.4%와 22.6% 향상시켜, 닫힌 책(closed-book) 기준선 대비 다른 검색기와 검색 엔진들을 능가했습니다. 또한, ReasonIR-8B는 테스트 시간 계산을 더 효과적으로 사용합니다: BRIGHT에서, 더 길고 정보가 풍부한 재구성된 질문을 사용할수록 성능이 지속적으로 증가하며, LLM 리랭커와 결합했을 때도 다른 검색기들을 계속해서 능가합니다. 우리의 훈련 방법은 일반적이며 향후 LLM으로 쉽게 확장할 수 있습니다; 이를 위해 우리는 코드, 데이터, 모델을 오픈소스로 공개합니다.
대규모 언어 모델(LLM)에 대한 보상 기반 정렬 방법은 두 가지 주요 한계에 직면해 있습니다: 보상 신호의 결함을 악용하는 모델의 보상 해킹 취약성과, LLM이 보상 모델로 사용될 때 취약하고 노동 집약적인 프롬프트 엔지니어링에 대한 의존성입니다. 우리는 이러한 문제를 해결하기 위해 메타 보상 모델을 통합하여 훈련 과정에서 보상 모델의 프롬프트를 동적으로 개선하는 메타 정책 최적화(MPO) 프레임워크를 소개합니다. MPO에서 메타 보상 모델은 진화하는 훈련 컨텍스트를 모니터링하고 정책의 악용에 저항하는 적응형 보상 신호를 제공하기 위해 보상 모델의 프롬프트를 지속적으로 조정합니다. 이 메타 학습 접근법은 더 안정적인 정책 최적화를 촉진하고 수동적인 보상 프롬프트 설계의 필요성을 크게 줄입니다. 이는 광범위하게 수작업으로 제작된 보상 프롬프트로 안내된 모델과 동등하거나 더 나은 성능을 제공합니다. 또한, MPO는 질문 응답 및 수학적 추론과 같은 다양한 작업에서 특수한 보상 설계 없이도 효과를 유지함을 보여줍니다. 표준 RLAIF를 넘어, MPO의 메타 학습 공식은 더 높은 수준의 정렬 프레임워크로 쉽게 확장 가능합니다. 전반적으로, 이 방법은 LLM에 대한 보상 기반 RL 정렬의 이론적 및 실질적 문제를 해결하여 더 강력하고 적응 가능한 정렬 전략의 길을 열어줍니다. 코드와 모델은 공개될 예정입니다.
본 논문은 3D 장면의 시간에 따른 동적 변화를 구현 에이전트의 행동에 반응하여 예측하며, 공간적 및 시간적 일관성을 제공하는 새로운 4D 구현 세계 모델을 학습하기 위한 효과적인 접근 방식을 제시합니다. 우리는 RGB-DN(RGB, 깊이, 법선) 비디오를 학습하여 4D 세계 모델을 학습하는 방법을 제안합니다. 이 방법은 단순히 기존의 2D 모델을 넘어서서 예측에 세부적인 형태, 구성 및 시간적 변화를 통합할 뿐만 아니라, 구현 에이전트를 위한 정확한 역동적 모델을 효과적으로 학습할 수 있게 합니다. 구체적으로, 우리는 먼저 기존의 로봇 조작 비디오 데이터셋에 깊이와 법선 정보를 추가하여 오프더셸프 모델을 활용합니다. 다음으로, 이 주석이 달린 데이터셋에서 비디오 생성 모델을 미세 조정하여 각 프레임에 대한 RGB-DN(RGB, 깊이, 법선)을 함께 예측합니다. 그런 다음, 생성된 RGB, 깊이, 법선 비디오를 고품질의 4D 장면으로 직접 변환하는 알고리즘을 제시합니다. 우리의 방법은 구현 시나리오에서 4D 장면 예측의 시간적 및 공간적 일관성을 보장하며, 구현 환경을 위한 새로운 시점 합성을 가능하게 하고, 기존의 비디오 기반 세계 모델에서 파생된 것보다 훨씬 우수한 정책 학습을 촉진합니다.
명령어 기반 이미지 편집은 자연어 프롬프트를 통해 강력한 이미지 수정을 가능하게 하지만, 현재의 방법들은 정밀도와 효율성 간의 트레이드오프에 직면해 있습니다. 미세 조정(fine-tuning) 방법은 상당한 계산 자원과 대규모 데이터셋을 요구하는 반면, 학습이 필요 없는( training-free) 기술들은 명령어 이해와 편집 품질에서 어려움을 겪습니다. 우리는 대규모 Diffusion Transformer (DiT)의 향상된 생성 능력과 고유의 문맥 인식을 활용하여 이러한 딜레마를 해결합니다. 우리의 솔루션은 세 가지 기여를 제안합니다: (1) 구조적 변경 없이 in-context 프롬프팅을 사용하여 제로샷(zero-shot) 명령어 준수를 위한 in-context 편집 프레임워크, (2) LoRA-MoE 하이브리드 튜닝 전략으로 효율적인 적응과 동적 전문가 라우팅을 통해 유연성을 향상시키며 대규모 재학습 없이도 가능한 방법, 그리고 (3) 시각-언어 모델(VLMs)을 사용한 초기 필터 추론 시간 스케일링 방법으로 더 나은 초기 노이즈를 조기에 선택하여 편집 품질을 개선합니다. 광범위한 평가를 통해 우리의 방법이 최첨단 접근법을 능가하면서도 기존 기준 대비 0.5%의 학습 데이터와 1%의 학습 가능한 매개변수만을 요구함을 입증했습니다. 이 연구는 고정밀도이면서도 효율적인 명령어 기반 편집을 가능하게 하는 새로운 패러다임을 확립합니다. 코드와 데모는 https://river-zhang.github.io/ICEdit-gh-pages/에서 확인할 수 있습니다.
대규모 언어 모델(LLM)이 사전 학습 과정에서 저작권이 있는 자료에 노출되면, 배포 후 의도치 않은 저작권 침해 문제가 발생할 우려가 있습니다. 이로 인해 "저작권 삭제" 방법들이 개발되었는데, 이는 모델이 저작권이 있는 콘텐츠와 실질적으로 유사한 내용을 생성하지 못하도록 사후 학습 접근법을 목표로 합니다. 현재의 완화 접근법들은 평균적인 위험에는 어느 정도 효과적이지만, 저작권이 있는 출처에서 길고 그대로 인용된 구절이 존재함으로써 발생하는 최악의 경우의 저작권 위험을 간과하고 있음을 우리는 보여줍니다. 우리는 BloomScrub를 제안하는데, 이는 매우 간단하면서도 고도로 효과적인 추론 시점 접근법으로, 인증된 저작권 삭제를 제공합니다. 우리의 방법은 잠재적으로 침해 가능한 부분을 변환하기 위해 인용 감지와 재작성 기술을 반복적으로 교차 적용합니다. 효율적인 데이터 스케치(Bloom 필터)를 활용함으로써, 우리의 접근법은 대규모 실제 코퍼스에 대해서도 확장 가능한 저작권 검사를 가능하게 합니다. 길이 임계값을 초과하는 인용구를 제거할 수 없는 경우, 시스템은 응답을 자제함으로써 인증된 위험 감소를 제공할 수 있습니다. 실험 결과는 BloomScrub가 침해 위험을 줄이고, 유용성을 보존하며, 적응형 자제를 통해 다양한 수준의 집행 엄격성을 수용할 수 있음을 보여줍니다. 우리의 결과는 경량의 추론 시점 방법이 저작권 방지에 놀랍도록 효과적일 수 있음을 시사합니다.
우리는 사전 학습된 대규모 언어 모델(LLMs)의 언어 능력을 유지하면서 다중 모달 작업을 위해 확장하는 프레임워크인 X-Fusion을 제안합니다. X-Fusion은 모달리티별 가중치를 갖는 듀얼-타워 설계를 채택하여 LLM의 매개변수를 고정 상태로 유지하면서 시각 정보를 이해 및 생성 작업에 통합합니다. 우리의 실험 결과, X-Fusion은 이미지-텍스트 및 텍스트-이미지 작업 모두에서 대안 아키텍처를 꾸준히 능가하는 것으로 나타났습니다. 이해 중심 데이터를 통합하면 생성 품질이 향상되고, 이미지 데이터 노이즈를 줄이면 전반적인 성능이 개선되며, 특징 정렬은 더 작은 모델의 수렴 속도를 가속화하지만 더 큰 모델에는 미미한 영향을 미치는 것을 발견했습니다. 이러한 연구 결과는 효율적인 통합 다중 모달 모델 구축에 대한 유용한 통찰을 제공합니다.
대규모 멀티모달 모델(예: GPT-4, Gemini, Chameleon)은 수백만 명의 사용자를 보유한 강력한 도구로 진화했습니다. 그러나 이러한 모델들은 여전히 일반적인 모델이며, 특정 사용자 개념에 대한 개인화된 지식을 갖추지 못하고 있습니다. 기존 연구에서는 텍스트 생성을 위한 개인화를 탐구했지만, 이러한 방법들이 이미지 생성과 같은 새로운 모달리티에 어떻게 적용될 수 있는지는 명확하지 않습니다. 본 논문에서는 대규모 멀티모달 모델을 위한 개인화를 연구한 첫 번째 시도인 Yo'Chameleon을 소개합니다. 특정 개념의 3-5개의 이미지가 주어졌을 때, Yo'Chameleon은 소프트 프롬프트 튜닝을 활용하여 주제별 정보를 임베딩하여 (i) 해당 주제에 대한 질문에 답하고, (ii) 새로운 맥락에서 주제의 이미지를 생성하기 위해 픽셀 수준의 세부 사항을 재현합니다. Yo'Chameleon은 (i) 다중 모달리티 간의 성능 균형을 맞추기 위한 자체 프롬프팅 최적화 메커니즘과, (ii) 소량의 데이터 설정에서 이미지 품질을 향상시키기 위한 "소프트-포지티브" 이미지 생성 접근법을 통해 학습됩니다.
대규모 언어 모델(LLM)을 상호작용 에이전트로 훈련시키는 것은 장기적 의사결정과 확률적 환경 피드백과의 상호작용을 포함한 독특한 과제를 제시합니다. 강화학습(RL)이 정적 작업에서의 진전을 가능하게 했지만, 다중 턴 에이전트 RL 훈련은 여전히 미개척 분야로 남아 있습니다. 우리는 궤적 수준 에이전트 RL을 위한 일반적인 프레임워크인 StarPO(State-Thinking-Actions-Reward Policy Optimization)를 제안하고, LLM 에이전트의 훈련 및 평가를 위한 모듈식 시스템인 RAGEN을 소개합니다. 세 가지 스타일화된 환경에 대한 연구를 통해 세 가지 핵심 발견을 도출했습니다. 첫째, 우리의 에이전트 RL 훈련은 보상 분산 절벽과 그래디언트 급상승을 특징으로 하는 Echo Trap 모드가 반복적으로 나타났으며, 이를 궤적 필터링, 비평가 통합, 분리된 클리핑을 포함한 안정화 변형인 StarPO-S로 해결했습니다. 둘째, RL 롤아웃의 형성은 다양한 초기 상태, 중간 수준의 상호작용 세분성, 더 빈번한 샘플링으로부터 이점을 얻을 수 있음을 발견했습니다. 셋째, 세밀하고 추론을 고려한 보상 신호 없이는, 다중 턴 RL을 통해 에이전트의 추론이 거의 나타나지 않으며, 피상적인 전략이나 환각적 사고를 보일 수 있음을 확인했습니다. 코드와 환경은 https://github.com/RAGEN-AI/RAGEN에서 확인할 수 있습니다.
다중모드 몰입형 공간 드라마 생성은 다중모드 프롬프트를 기반으로 극적인 운율을 가진 연속적인 다중 화자 이중 청각 음성을 생성하는 데 초점을 맞추며, AR, VR 등 다양한 분야에 적용 가능성을 가지고 있다. 이 작업은 다중모드 입력을 기반으로 공간 정보와 극적인 운율을 동시에 모델링해야 하며, 데이터 수집 비용이 높다. 우리가 아는 한, 본 연구는 이러한 문제를 해결하기 위한 첫 번째 시도이다. 우리는 이중 청각 드라마 오디오, 대본, 비디오, 기하학적 포즈, 텍스트 프롬프트를 포함한 최초의 다중모드 기록 공간 드라마 데이터셋인 MRSDrama를 구축하였다. 그리고 다중모드 프롬프팅을 통해 최초의 몰입형 공간 드라마 생성 모델인 ISDrama를 제안한다. ISDrama는 다음과 같은 주요 구성 요소로 이루어져 있다: 1) 다중모드 포즈 인코더는 이동하는 화자에 의해 발생하는 도플러 효과를 고려하여 다중모드 프롬프트에서 통합된 포즈 정보를 추출하기 위해 대조 학습을 기반으로 한다. 2) 몰입형 드라마 트랜스포머는 흐름 기반 맘바-트랜스포머 모델로, Drama-MOE를 통해 적절한 전문가를 선택하여 향상된 운율과 포즈 제어를 가능하게 한다. 또한, 일관된 문맥을 유지하며 완전한 드라마를 생성하기 위해 컨텍스트 일관성 분류자 없는 지도 전략을 설계하였다. 실험 결과는 ISDrama가 객관적 및 주관적 지표에서 기준 모델을 능가함을 보여준다. 데모와 데이터셋은 https://aaronz345.github.io/ISDramaDemo에서 확인할 수 있다.
다중 홉 질의응답(MHQA)에서 정보를 종합하기 위해 여러 문서 청크를 거쳐야 하는 복잡한 질의를 처리할 때, 검색 강화 생성(RAG) 시스템은 상당한 어려움에 직면합니다. 기존 접근법은 일반적으로 반복적인 대형 언어 모델(LLM) 기반 질의 재작성 및 라우팅에 의존하여, 반복적인 LLM 호출과 다단계 프로세스로 인해 높은 계산 비용이 발생합니다. 이러한 한계를 해결하기 위해, 우리는 질의 정제 과정에서 LLM을 필요로 하지 않는 임베딩 수준의 프레임워크인 TreeHop을 제안합니다. TreeHop은 이전 질의와 검색된 문서로부터의 의미 정보를 융합하여 질의 임베딩을 동적으로 업데이트함으로써, 임베딩 공간 연산만을 통해 반복적인 검색을 가능하게 합니다. 이 방법은 기존의 "검색-재작성-벡터화-검색" 사이클을 간소화된 "검색-임베딩-검색" 루프로 대체하여 계산 오버헤드를 크게 줄입니다. 또한, 규칙 기반의 중단 기준을 도입하여 불필요한 검색을 더욱 줄이고, 효율성과 재현율 사이의 균형을 맞춥니다. 실험 결과, TreeHop은 세 가지 개방형 도메인 MHQA 데이터셋에서 고급 RAG 방법들과 경쟁 가능한 성능을 보이며, 동시대 접근법과 비교하여 모델 파라미터 크기의 5\%-0.4\%만으로도 비슷한 성능을 달성하고 질의 지연 시간을 약 99\% 줄입니다. 이로 인해 TreeHop은 다양한 지식 집약적 애플리케이션에서 배포하기에 더 빠르고 비용 효율적인 솔루션으로 자리 잡습니다. 재현성을 위해 코드와 데이터는 https://github.com/allen-li1231/TreeHop에서 확인할 수 있습니다.
현재 대규모 언어 모델(LLM) 정렬을 위한 인간 피드백 강화 학습(RLHF) 파이프라인은 일반적으로 시퀀스에 스칼라 보상을 할당하며, 최종 토큰을 전체 시퀀스의 품질을 대표하는 지표로 사용합니다. 그러나 이는 희소한 피드백과 최적이 아닌 토큰 수준의 보상 할당을 초래합니다. 본 연구에서는 보상 형성(reward shaping)을 토큰 수준의 보상 할당에 초점을 맞춘 최적화 문제로 재구성합니다. 우리는 SHAP 및 LIME과 같은 설명 가능성 방법을 활용하여 보상 모델로부터 토큰별 보상을 추정하는 보상 형성 함수를 제안합니다. 이 형성 함수의 매개변수를 학습하기 위해, 우리는 토큰 보상 추정에서 발생하는 노이즈를 처리하기 위해 베이지안 최적화와 정책 훈련을 통합하는 이중 수준 최적화 프레임워크를 사용합니다. 우리의 실험 결과, 토큰 수준의 보상 귀속을 더 잘 균형 있게 조정하면 다운스트림 작업에서 기준선 대비 성능 향상을 이끌어내며, 훈련 중에 최적 정책을 더 빠르게 찾을 수 있음을 보여줍니다. 또한, 이론적으로 특징 가산 귀속 함수(feature additive attribution functions)인 설명 가능성 방법이 원래 보상과 동일한 최적 정책을 유지함을 보입니다.
법률 실무자들, 특히 경력 초반의 실무자들은 적응적이고 상황에 민감한 추론이 필요한 복잡하고 위험도가 높은 업무에 직면합니다. AI가 법률 업무를 지원할 가능성이 있지만, 현재의 데이터셋과 모델은 고립된 하위 작업에만 초점을 맞추고 있어 실제 업무에서 필요한 종단간 의사결정을 포착하지 못하고 있습니다. 이러한 격차를 해소하기 위해, 우리는 실제 비즈니스 법인 설립 시나리오를 기반으로 훈련된 법학도들로부터 수집된 종단간 법률 워크플로우 데이터셋인 LawFlow를 소개합니다. 입력-출력 쌍이나 선형적 사고 체인에 초점을 맞춘 기존 데이터셋과 달리, LawFlow는 법률 실무의 모호성, 수정, 그리고 클라이언트에 적응적인 전략을 반영한 동적이고 모듈화된 반복적 추론 과정을 포착합니다. LawFlow를 사용하여 인간과 LLM(대형 언어 모델)이 생성한 워크플로우를 비교한 결과, 구조, 추론 유연성, 계획 실행에서 체계적인 차이를 발견했습니다. 인간의 워크플로우는 모듈화되고 적응적인 경향이 있는 반면, LLM의 워크플로우는 더 순차적이고 철저하며 하류 영향에 덜 민감했습니다. 또한, 법률 전문가들은 AI가 복잡한 워크플로우를 종단간 실행하기보다는 브레인스토밍, 블라인드 스팟 식별, 대안 제시와 같은 지원 역할을 수행하는 것을 선호한다는 것을 발견했습니다. 이러한 연구 결과를 바탕으로, 우리는 하이브리드 계획, 적응적 실행, 의사결정 지점 지원을 통해 명확성, 완전성, 창의성, 효율성이라는 인간의 목표와 일치하는 AI 지원을 위한 설계 제안을 제시합니다. 우리의 결과는 복잡한 법률 워크플로우를 지원하는 데 있어 LLM의 현재 한계와 더 협력적이고 추론을 인지하는 법률 AI 시스템을 개발할 기회를 모두 강조합니다. 모든 데이터와 코드는 프로젝트 페이지(https://minnesotanlp.github.io/LawFlow-website/)에서 확인할 수 있습니다.
최근 Talking Head Generation(THG) 분야에서 확산 모델을 통해 인상적인 입술 동기화와 시각적 품질을 달성한 연구들이 등장하고 있으나, 기존 방법들은 화자 신원을 유지하면서도 감정 표현이 풍부한 초상화를 생성하는 데 어려움을 겪고 있다. 본 연구는 현재의 감정적 Talking Head 생성에서 세 가지 주요 한계점을 확인하였다: 오디오의 내재적 감정 신호 활용 부족, 감정 표현에서의 신원 누출, 그리고 감정 상관관계의 고립된 학습. 이러한 문제를 해결하기 위해, 우리는 신원과 감정을 분리하고 유사한 특성을 가진 감정들을 협력적으로 학습하는 DICE-Talk이라는 새로운 프레임워크를 제안한다. 첫째, 교차 모달 어텐션을 통해 오디오-시각적 감정 신호를 공동으로 모델링하고, 감정을 신원과 무관한 가우시안 분포로 표현하는 분리된 감정 임베더를 개발하였다. 둘째, 벡터 양자화와 어텐션 기반 특징 집계를 통해 감정 간 관계를 명시적으로 포착하는 학습 가능한 Emotion Banks를 포함한 상관관계 강화 감정 조건화 모듈을 도입하였다. 셋째, 잠재 공간 분류를 통해 확산 과정 중 감정적 일관성을 강제하는 감정 판별 목적 함수를 설계하였다. MEAD 및 HDTF 데이터셋에서의 광범위한 실험을 통해, 우리의 방법이 감정 정확도에서 최첨단 접근법을 능가하면서도 경쟁력 있는 입술 동기화 성능을 유지함을 입증하였다. 질적 결과와 사용자 연구는 또한 우리의 방법이 보이지 않는 신원에 자연스럽게 적응하는 풍부하고 상관된 감정 표현을 가진 신원 보존 초상화를 생성할 수 있음을 확인시켜 주었다.
사고의 연쇄(Chain-of-Thought) 프롬프팅은 대규모 언어 모델의 추론 능력을 촉진하는 데 큰 성공을 거두었습니다. 본 연구에서는 이러한 향상된 추론 능력을 활용하여 반드시 추론 중심이 아닌 작업에서 대규모 언어 모델의 견고성을 개선할 수 있는 방법을 탐구합니다. 특히, 구조화된 방어적 사고를 포함한 몇 가지 예시만을 데모로 제공하는 간단한 방법인 방어적 사고의 연쇄(Chain-of-Defensive-Thought)를 사용할 때, 다양한 대규모 언어 모델이 참조 데이터의 오염에 대해 상당히 향상된 견고성을 보임을 입증합니다. 실험적으로, 이 방법의 단순성과 적용 가능성을 고려할 때 그 개선 효과는 놀라울 정도입니다. 예를 들어, Natural Questions 작업에서 표준 프롬프팅을 사용할 때 GPT-4o의 정확도는 프롬프트 주입 공격으로 10개의 참조 중 1개가 오염되면 60%에서 최저 3%까지 하락합니다. 반면, 방어적 사고의 연쇄 프롬프팅을 사용한 GPT-4o는 50%의 정확도를 유지합니다.
우리는 자율 주행에서의 특권적 계획(privileged planning)을 위한 강화 학습(Reinforcement Learning, RL)을 연구한다. 이 작업에 대한 최신 접근 방식은 규칙 기반이지만, 이러한 방법은 긴 꼬리(long tail) 문제로 확장성이 떨어진다. 반면, RL은 확장성이 뛰어나며 모방 학습(imitation learning)과 같은 오류 누적 문제를 겪지 않는다. 최근의 자율 주행을 위한 RL 접근법은 진행도, 위치, 방향 등과 같은 여러 개별 보상을 합산한 복잡한 형태의 보상을 사용한다. 우리는 미니 배치 크기가 증가할 때 이러한 보상의 인기 있는 버전을 PPO(Proximal Policy Optimization)가 최적화하지 못함을 보여주며, 이는 이러한 접근법의 확장성을 제한한다. 대신, 우리는 주로 직관적인 단일 보상 항목인 경로 완주(route completion)를 최적화하는 새로운 보상 설계를 제안한다. 위반 사항은 에피소드를 종료하거나 경로 완주를 곱셈적으로 감소시켜 처벌한다. 우리는 단순한 보상으로 훈련할 때 PPO가 더 큰 미니 배치 크기에서도 잘 확장되며, 성능이 개선됨을 발견했다. 큰 미니 배치 크기로 훈련하면 분산 데이터 병렬화를 통해 효율적인 확장이 가능하다. 우리는 단일 8-GPU 노드로 CARLA에서 300M 샘플, nuPlan에서 500M 샘플까지 PPO를 확장했다. 결과 모델은 CARLA longest6 v2 벤치마크에서 64 DS를 달성하며, 더 복잡한 보상을 사용한 다른 RL 방법을 큰 차이로 앞섰다. CARLA에서의 사용에 필요한 최소한의 적응만으로도 동일한 방법은 nuPlan에서 최고의 학습 기반 접근법이다. 이 방법은 Val14 벤치마크에서 비반응형(non-reactive) 트래픽에서 91.3, 반응형(reactive) 트래픽에서 90.6의 점수를 기록하며, 이전 작업보다 한 차원 빠른 속도를 보인다.
본 리뷰는 3D 비전과 멀티모달 AI의 교차점에서 빠르게 발전하고 있는 비전-언어 모델(VLMs)을 활용한 3D 객체 탐지에 대한 체계적인 분석을 제공합니다. 100편 이상의 연구 논문을 검토함으로써, 비전-언어 모델을 사용한 3D 객체 탐지에 전념한 첫 번째 체계적인 분석을 제시합니다. 먼저, 비전-언어 모델을 활용한 3D 객체 탐지의 독특한 도전 과제를 개괄하며, 공간 추론과 데이터 복잡성 측면에서 2D 탐지와의 차이점을 강조합니다. 포인트 클라우드와 복셀 그리드를 사용하는 전통적인 접근법을 CLIP 및 3D LLMs와 같은 현대적인 비전-언어 프레임워크와 비교하며, 이들이 개방형 어휘 탐지와 제로샷 일반화를 가능하게 하는 방식을 살펴봅니다. 텍스트와 3D 특징을 효과적으로 정렬하여 비전-언어 모델을 활용한 3D 객체 탐지를 가능하게 하는 주요 아키텍처, 사전 학습 전략, 프롬프트 엔지니어링 방법을 검토합니다. 시각화 예제와 평가 벤치마크를 통해 성능과 동작을 설명하며, 마지막으로 제한된 3D-언어 데이터셋과 계산적 요구 사항과 같은 현재의 도전 과제를 강조하고, 비전-언어 모델을 활용한 3D 객체 탐지를 발전시키기 위한 미래 연구 방향을 제안합니다. >객체 탐지, 비전-언어 모델, 에이전트, VLMs, LLMs, AI