번역이 포함된 일일 선별된 AI 연구 논문
Chain-of-Thought(CoT) 프롬프팅은 다양한 작업에서 대형 언어 모델(LLM)의 성능을 향상시키는 것으로 나타났습니다. 이 접근법을 통해 LLM은 답변을 제공하기 전에 인간과 유사한 추론 단계를 생성하는 것처럼 보이며(이를 CoT 추론이라고 함), 이는 종종 모델이 의도적인 추론 과정을 거치는 것처럼 인식되게 합니다. 그러나 일부 초기 연구 결과에 따르면 CoT 추론이 겉보기보다 더 피상적일 가능성이 있어, 이를 더 깊이 탐구할 필요가 있습니다. 본 논문에서는 데이터 분포 관점에서 CoT 추론을 연구하고, CoT 추론이 학습 데이터 내에서 학습된 구조화된 귀납적 편향을 반영하여 모델이 훈련 중에 본 추론 경로를 조건부로 생성할 수 있는지 조사합니다. 따라서 그 효과는 근본적으로 훈련 데이터와 테스트 쿼리 간의 분포 차이 정도에 의해 제한됩니다. 이러한 관점에서 우리는 CoT 추론을 작업(task), 길이(length), 형식(format)이라는 세 가지 차원으로 분석합니다. 각 차원을 조사하기 위해, 우리는 DataAlchemy라는 독립적이고 통제된 환경을 설계하여 LLM을 처음부터 훈련시키고 다양한 분포 조건에서 체계적으로 탐구합니다. 우리의 결과는 CoT 추론이 훈련 분포를 벗어나면 깨지기 쉬운 신기루처럼 사라지는 것을 보여줍니다. 이 연구는 CoT 추론이 왜 그리고 언제 실패하는지에 대한 더 깊은 이해를 제공하며, 진정하고 일반화 가능한 추론을 달성하는 데 지속적인 도전이 남아 있음을 강조합니다.
최근 연구들은 복잡한 그래픽 사용자 인터페이스(GUI) 기반 컴퓨터 작업을 수행할 수 있는 자율 에이전트 구축에 깊이 관여하며, 이는 인간-컴퓨터 상호작용에 혁신을 가져올 잠재력을 가지고 있습니다. 고무적인 결과에도 불구하고, 기존 연구들은 주로 단기 상호작용에 초점을 맞추고 결과만을 검증하는 방식에 의존함으로써, 장기적인 작업 분해와 실행을 요구하는 실제 GUI 애플리케이션에서의 확장성을 제한하고 있습니다. 본 연구에서는 현실적인 컴퓨터 환경에서 작동하는 일반적인 GUI 에이전트의 개발과 평가를 촉진하기 위해 설계된 새로운 검증 가능한 장기 체인 GUI 데이터셋인 VeriGUI를 소개합니다. 우리의 데이터셋은 두 가지 중요한 차원을 강조합니다: (1) 수백 단계에 걸친 상호의존적인 하위 작업 시퀀스로 분해된 장기 체인 복잡성으로, 모든 하위 작업이 유효한 시작점으로 작용할 수 있도록 명시적으로 설계되었으며; (2) 각 하위 작업 내에서 다양한 탐색 전략을 가능하게 하면서도 각 하위 작업 수준의 목표가 검증 가능하고 일관되도록 하는 하위 작업 수준 검증 가능성입니다. 이 데이터셋은 데스크톱과 웹을 아우르는 GUI 작업 궤적으로 구성되어 있으며, 인간 전문가에 의해 주석이 달렸습니다. 다양한 기반 모델을 가진 여러 에이전트를 사용한 VeriGUI에 대한 광범위한 실험은 장기 작업 처리에서 상당한 성능 격차를 드러내며, GUI 에이전트에서 더 강력한 계획 및 의사결정 능력의 필요성을 강조합니다.
대형 언어 모델(LLM) 기반 에이전트의 놀라운 능력은 복잡하고 다단계 작업을 처리할 수 있는 정교한 시스템을 가능하게 했지만, 그 비용의 증가는 확장성과 접근성을 위협하고 있다. 본 연구는 성능을 희생하지 않으면서도 비용 효율적인 설계의 중요성을 다루며, 현대 에이전트 시스템에서 효율성과 효과성 간의 상충 관계에 대한 첫 번째 체계적인 연구를 제시한다. 우리는 세 가지 핵심 질문을 탐구한다: (1) 에이전트 작업이 본질적으로 얼마나 복잡성을 요구하는가? (2) 추가 모듈이 언제 수익 체감을 초래하는가? (3) 효율적인 에이전트 프레임워크 설계를 통해 얼마나 많은 효율성을 얻을 수 있는가? GAIA 벤치마크에 대한 실증적 분석을 통해 LLM 백본 선택, 에이전트 프레임워크 설계, 테스트 시 스케일링 전략의 영향을 평가한다. 비용 대비 성능 지표(cost-of-pass metric)를 사용하여 이러한 차원에서의 효율성과 성능 간의 상충 관계를 정량화한다. 우리의 연구 결과는 작업 요구 사항에 최적의 복잡성을 갖춘 새로운 에이전트 프레임워크인 Efficient Agents의 개발에 기여한다. Efficient Agents는 선도적인 오픈소스 에이전트 프레임워크 중 하나인 OWL의 성능을 96.7% 유지하면서 운영 비용을 0.398에서 0.228로 줄여 비용 대비 성능 지표에서 28.4%의 개선을 달성한다. 본 연구는 효율적이고 고성능의 에이전트 시스템 설계를 위한 실행 가능한 통찰을 제공함으로써 AI 기반 솔루션의 접근성과 지속 가능성을 진전시킨다.
우리는 모든 AI 에이전트를 위한 대규모 언어 모델(LLM)의 강화 학습(RL) 기반 훈련을 가능하게 하는 유연하고 확장 가능한 프레임워크인 Agent Lightning을 소개합니다. 기존 방법들이 RL 훈련을 에이전트와 긴밀하게 결합하거나 시퀀스 연결과 마스킹에 의존하는 것과 달리, Agent Lightning은 에이전트 실행과 훈련 간의 완전한 분리를 달성합니다. 이를 통해 LangChain, OpenAI Agents SDK, AutoGen과 같은 프레임워크를 사용하거나 처음부터 구축된 다양한 방식으로 개발된 기존 에이전트와 거의 코드 수정 없이 원활하게 통합할 수 있습니다. 에이전트 실행을 마르코프 결정 과정으로 공식화함으로써, 우리는 통합된 데이터 인터페이스를 정의하고, 크레딧 할당 모듈을 포함한 계층적 RL 알고리즘인 LightningRL을 제안합니다. 이를 통해 ANY 에이전트에 의해 생성된 궤적을 훈련 전환으로 분해할 수 있습니다. 이는 RL이 다중 에이전트 시나리오 및 동적 워크플로와 같은 복잡한 상호작용 논리를 처리할 수 있게 합니다. 시스템 설계 측면에서, 우리는 훈련-에이전트 분리 아키텍처를 도입하고, 에이전트 런타임에 에이전트 관찰 가능성 프레임워크를 통합하여 표준화된 에이전트 미세 조정 인터페이스를 제공합니다. 텍스트-to-SQL, 검색 증강 생성, 수학 도구 사용 작업에 걸친 실험은 안정적이고 지속적인 개선을 보여주며, 이 프레임워크가 실제 에이전트 훈련 및 배포에 있어 잠재력을 가지고 있음을 입증합니다.
강화학습(Reinforcement Learning, RL)을 대규모 언어 모델(Large Language Models, LLMs)에 적용하는 연구는 주로 수학적 추론이나 단일 코드 생성과 같은 단일 턴 문제에 초점을 맞춰왔습니다. 이러한 문제들은 토큰 수준의 다중 턴 MDP(Markov Decision Process)로 볼 수 있지만, 이는 환경이 어떠한 피드백도 제공하지 않는 퇴화된 다중 턴 상호작용의 경우에 해당합니다. 이는 소프트웨어 엔지니어링(SWE)과 같은 많은 실제 문제 영역과 대조됩니다. 이러한 영역에서는 각 행동에 대해 의미 있는 관측을 제공하는 상태 유지 환경과의 풍부한 다중 턴 상호작용이 필요합니다. 이러한 격차를 해소하기 위해, 우리는 RL을 이러한 일반적인 영역에 성공적으로 적용하는 방법을 보여줍니다. 수정된 DAPO(Decoupled Advantage Policy Optimization) 알고리즘을 사용하여 Qwen2.5-72B-Instruct 기반의 에이전트를 훈련시켜 실제 소프트웨어 엔지니어링 작업을 해결하도록 합니다. 우리의 접근 방식은 교사 모델에 의존하지 않고도 SWE-bench Verified 벤치마크에서 에이전트의 성공률을 20%의 거부 미세 조정 기준선에서 39%로 증가시켰습니다. SWE-rebench에서는 동일한 스캐폴딩을 사용하여 DeepSeek-V3-0324 및 Qwen3-235B-A22B와 같은 주요 오픈 가중치 모델을 능가하거나 동등한 성능을 보여주며, 복잡한 실제 문제를 해결하기 위한 더 능력 있는 자율 에이전트를 구축하는 데 있어 실현 가능한 경로를 제시합니다.
대규모 시각-언어 모델(LVLMs)을 컴퓨터 사용 에이전트(CUAs)로 재활용하는 것은 주로 인간이 레이블링한 데이터에 의해 상당한 돌파구를 마련했습니다. 그러나 이러한 모델들은 인간의 주석이 없는 시나리오에서 특히 새로운 및 특수 소프트웨어를 다룰 때 어려움을 겪는 경우가 많습니다. 이러한 문제를 해결하기 위해, 우리는 SEAgent를 제안합니다. SEAgent는 컴퓨터 사용 에이전트가 익숙하지 않은 소프트웨어와의 상호작용을 통해 자율적으로 진화할 수 있도록 하는 에이전트 기반 자기 진화 프레임워크입니다. 구체적으로, SEAgent는 컴퓨터 사용 에이전트가 새로운 소프트웨어 환경을 경험적 학습을 통해 자율적으로 마스터할 수 있도록 합니다. 여기서 에이전트는 새로운 소프트웨어를 탐색하고, 반복적인 시행착오를 통해 학습하며, 점점 더 복잡해지는 자동 생성된 작업을 점진적으로 해결합니다. 이를 위해, 우리는 단계별 궤적 평가를 위한 World State Model과 점점 더 다양하고 도전적인 작업을 생성하는 Curriculum Generator를 설계했습니다. 에이전트의 정책은 실패 행동에 대한 적대적 모방과 성공한 행동에 대한 그룹 상대 정책 최적화(GRPO)로 구성된 경험적 학습을 통해 업데이트됩니다. 또한, 우리는 전문가 에이전트로부터의 개별 경험적 통찰을 통합하여 더 강력한 일반주의 CUA의 개발을 촉진하는 전문가에서 일반주의로의 훈련 전략을 도입했습니다. 이 통합 에이전트는 궁극적으로 특수 소프트웨어에서 개별 전문가 에이전트 앙상블을 능가하는 성능을 달성합니다. 우리는 SEAgent의 효과를 OS-World 내의 다섯 가지 새로운 소프트웨어 환경에서 검증했습니다. 우리의 접근 방식은 경쟁력 있는 오픈소스 CUA인 UI-TARS에 비해 성공률에서 11.3%에서 34.5%로 23.2%의 상당한 개선을 달성했습니다.
상호작용적 다중모드 에이전트는 원시 시각 관측을 언어 조건화된 행동의 일관된 시퀀스로 변환해야 하는데, 이는 현재의 시각-언어 모델(VLMs)이 아직 갖추지 못한 능력이다. 이론적으로는 초기의 강화학습(RL) 접근법이 VLMs에 이러한 기술을 부여할 수 있지만, 학습된 행동이 훈련 시뮬레이터를 넘어 일반화되는지 거의 테스트되지 않았으며, 취약한 하이퍼파라미터 조정이나 상태 변동성이 낮은 밀집 보상 환경에 의존한다. 우리는 Vision-Language Decoupled Actor-Critic (VL-DAC)이라는 경량화되고 하이퍼파라미터가 없는 RL 알고리즘을 소개한다. VL-DAC은 행동 토큰에 PPO 업데이트를 적용하면서 환경 단계 수준에서만 가치를 학습하는데, 이는 우리가 아는 한 대규모 VLMs 또는 LLMs에 대해 이전에 탐구되지 않은 방식이다. 이 간단한 분리는 불안정한 가중치 항목을 제거하고 더 빠르고 안정적인 수렴을 이끈다. VL-DAC으로 하나의 저렴한 시뮬레이터(MiniWorld, Gym-Cards, ALFWorld, 또는 WebShop)에서 단일 VLM을 훈련시키는 것만으로도 널리 일반화되는 정책을 생성한다: BALROG(게임 중심 에이전트 제어)에서 +50%, VSI-Bench(공간 계획)의 가장 어려운 부분에서 +5%, VisualWebBench(웹 탐색)에서 +2%의 상대적 성능 향상을 달성하며, 일반적인 이미지 이해 정확도는 저하되지 않는다. 이러한 결과는 간단한 RL 알고리즘이 저렴한 합성 세계에서 VLMs을 완전히 훈련시키면서 실제 이미지 에이전트 제어, 공간 추론, 웹 탐색 벤치마크에서 측정 가능한 성과를 제공할 수 있다는 첫 번째 증거를 제공한다.
사회적 지능은 대규모 언어 모델(LLMs)에게 있어서 필수적인 능력으로 자리 잡았으며, 이를 통해 모델들은 숙박, 설득, 협업, 협상과 같은 실제 사회적 과제에 효과적으로 참여할 수 있게 되었습니다. 강화 학습(RL)은 사회적으로 지능적인 에이전트를 훈련시키기에 자연스럽게 적합한 방법으로, 모델들이 사회적 상호작용을 통해 직접 정교한 전략을 학습할 수 있게 합니다. 그러나 사회적 상호작용은 RL 훈련에 장벽을 세우는 두 가지 주요 특성을 가지고 있습니다: (1) 부분 관찰 가능성으로, 발화가 간접적이고 지연된 효과를 가지며 이는 신용 할당을 복잡하게 만듭니다. (2) 다차원성으로, 라포 형성이나 지식 탐색과 같은 행동들이 목표 달성에 간접적으로 기여합니다. 이러한 특성들은 단일 차원의 에피소드 수준 보상을 사용하는 마르코프 결정 과정(MDP) 기반 RL을 비효율적이고 불안정하게 만듭니다. 이러한 문제를 해결하기 위해, 우리는 Sotopia-RL이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 거친 에피소드 수준 피드백을 발화 수준의 다차원 보상으로 정제합니다. 발화 수준 신용 할당은 결과를 개별 발화에 귀속시켜 부분 관찰 가능성을 완화하고, 다차원 보상은 사회적 상호작용의 전체 풍부함을 포착하며 보상 해킹을 줄입니다. 개방형 사회 학습 환경인 Sotopia에서의 실험은 Sotopia-RL이 최신의 사회적 목표 달성 점수(Sotopia-hard에서 7.17, Sotopia-full에서 8.31)를 달성하며 기존 접근법을 크게 능가함을 보여줍니다. 제거 연구는 RL 훈련을 위해 발화 수준 신용 할당과 다차원 보상 설계가 모두 필요함을 확인합니다. 우리의 구현은 https://github.com/sotopia-lab/sotopia-rl에서 공개적으로 이용 가능합니다.
약물 독성은 제약 개발에서 여전히 주요한 과제로 남아 있다. 최근 머신러닝 모델은 실리코 독성 예측을 개선했으나, 주석이 달린 데이터에 대한 의존성과 해석 가능성의 부족으로 인해 적용 범위가 제한된다. 이는 복잡한 생물학적 메커니즘에 의해 유도되는 장기 특이적 독성을 포착하는 능력을 제한한다. 대형 언어 모델(LLM)은 단계별 추론과 텍스트 데이터의 통합을 통해 유망한 대안을 제공하지만, 기존 접근법은 생물학적 맥락과 투명한 근거가 부족하다. 이 문제를 해결하기 위해, 우리는 다중 독성 예측을 위한 사고의 연쇄(CoT) 추론과 LLM을 통합한 새로운 프레임워크인 CoTox를 제안한다. CoTox는 화학 구조 데이터, 생물학적 경로, 그리고 유전자 온톨로지(GO) 용어를 결합하여 단계별 추론을 통해 해석 가능한 독성 예측을 생성한다. GPT-4o를 사용하여 CoTox가 전통적인 머신러닝 및 딥러닝 모델을 능가함을 보여준다. 또한, 다양한 LLM에서의 성능을 검토하여 CoTox가 가장 효과적인 영역을 식별한다. 추가적으로, SMILES보다 LLM이 이해하기 쉬운 IUPAC 명칭으로 화학 구조를 표현하는 것이 모델의 추론 능력을 강화하고 예측 성능을 개선함을 발견했다. 약물 개발에서의 실용적 유용성을 입증하기 위해, 관련 세포 유형에 약물을 처리하는 시뮬레이션을 수행하고 그 결과로 얻은 생물학적 맥락을 CoTox 프레임워크에 통합했다. 이 접근법은 CoTox가 생리적 반응과 일치하는 독성 예측을 생성할 수 있게 하며, 사례 연구에서 이를 보여준다. 이 결과는 LLM 기반 프레임워크가 해석 가능성을 개선하고 초기 단계 약물 안전성 평가를 지원할 잠재력을 강조한다. 본 연구에서 사용된 코드와 프롬프트는 https://github.com/dmis-lab/CoTox에서 확인할 수 있다.
멀티모달 대규모 모델은 웹 에이전트의 발전을 크게 촉진하여 인간의 인지와 유사한 방식으로 디지털 환경을 인지하고 상호작용할 수 있게 했습니다. 본 논문에서는 웹 에이전트가 인지적 추론에 효과적으로 참여하기 위해서는 먼저 충분한 지식을 습득해야 한다고 주장합니다. 따라서 우리는 웹 에이전트의 능력을 두 가지 필수 단계로 분해합니다: 지식 내용 학습과 인지 과정. 이를 공식화하기 위해, 우리는 Web-CogKnowledge 프레임워크를 제안하며, 지식을 사실적(Factual), 개념적(Conceptual), 절차적(Procedural)로 분류합니다. 이 프레임워크에서 지식 내용 학습은 에이전트의 기억(Memorizing)과 이해(Understanding) 과정에 해당하며, 이는 처음 두 가지 지식 유형에 의존하여 학습의 "무엇(what)"을 나타냅니다. 반면, 인지 과정은 절차적 지식에 기반한 탐색(Exploring)에 해당하며, 이는 추론과 행동의 "어떻게(how)"를 정의합니다. 지식 습득을 촉진하기 위해, 우리는 14개의 실제 웹사이트에서 체계적으로 수집한 구조화된 리소스인 Web-CogDataset을 구축했습니다. 이 데이터셋은 웹 에이전트에게 필요한 핵심 지식을 체계적으로 주입하도록 설계되었으며, 에이전트의 개념적 기반(이해를 구축하는 "명사")과 추론 및 행동을 학습하는 기반 역할을 합니다. 이 기반을 바탕으로, 우리는 새로운 지식 기반 Chain-of-Thought(CoT) 추론 프레임워크를 통해 이러한 과정을 운영화하고, 제안된 에이전트인 Web-CogReasoner를 개발하고 훈련시켰습니다. 광범위한 실험을 통해, 특히 구조화된 지식이 결정적인 역할을 하는 보이지 않는 작업에 일반화하는 데 있어 기존 모델 대비 상당한 우수성을 보여주었습니다. 엄격한 평가를 위해, 우리는 정의된 지식 영역과 인지 능력에 걸쳐 에이전트 성능을 평가하고 비교하기 위한 포괄적인 평가 도구인 Web-CogBench을 소개합니다. 우리의 코드와 데이터는 https://github.com/Gnonymous/Web-CogReasoner에서 공개되어 있습니다.
웹페이지 디자인을 코드로 변환하는 작업(디자인-투-코드)은 프론트엔드 개발자들에게 시각적 디자인과 기능적 구현 간의 간극을 메우는 데 있어 사용자 인터페이스(UI) 개발에서 중요한 역할을 합니다. 최근 멀티모달 대형 언어 모델(MLLM)들이 디자인-투-코드 작업에서 상당한 잠재력을 보여주고 있지만, 코드 생성 과정에서 레이아웃을 정확하게 유지하지 못하는 경우가 많습니다. 이를 해결하기 위해 우리는 인간 인지 과정에서의 사고의 연쇄(Chain-of-Thought, CoT) 추론에서 영감을 받아, 레이아웃을 사고로 간주하는 Layout-as-Thought(LaT)를 통해 웹페이지 디자인에서 코드 생성 시 레이아웃 보존을 강화하는 새로운 접근 방식인 LaTCoder를 제안합니다. 구체적으로, 먼저 웹페이지 디자인을 이미지 블록으로 나누는 간단하면서도 효율적인 알고리즘을 도입합니다. 다음으로, CoT 기반 접근 방식을 사용해 MLLM에게 각 블록에 대한 코드 생성을 요청합니다. 마지막으로, 절대 위치 지정과 MLLM 기반 방법이라는 두 가지 조립 전략을 적용한 후 동적 선택을 통해 최적의 출력을 결정합니다. 우리는 LaTCoder의 효과를 공개 벤치마크와 복잡한 레이아웃을 특징으로 하는 새롭게 도입된 더 어려운 벤치마크(CC-HARD)에서 여러 백본 MLLM(즉, DeepSeek-VL2, Gemini, GPT-4o)을 사용해 평가합니다. 자동 평가 지표에 대한 실험 결과는 상당한 개선을 보여줍니다. 특히, DeepSeek-VL2를 사용할 때 TreeBLEU 점수가 66.67% 증가하고 MAE가 38% 감소했으며, 이는 직접 프롬프트 방식과 비교한 결과입니다. 또한, 인간 선호도 평가 결과는 주석자들이 LaTCoder가 생성한 웹페이지를 60% 이상의 경우에서 선호한다는 것을 보여주며, 이는 우리 방법의 효과를 강력하게 뒷받침합니다.
텍스트-이미지 생성 모델을 평가하는 데는 인간의 인지와의 일치가 필요하지만, 기존의 인간 중심 지표는 제한된 데이터 범위, 최적화되지 않은 특징 추출, 비효율적인 손실 함수로 인해 한계가 있습니다. 이러한 문제를 해결하기 위해 우리는 Human Preference Score v3(HPSv3)를 소개합니다. (1) 우리는 HPDv3를 공개합니다. 이는 최신 생성 모델과 저품질에서 고품질에 이르는 실제 이미지로부터 108만 개의 텍스트-이미지 쌍과 117만 개의 주석이 달린 쌍별 비교를 통합한 최초의 광범위한 인간 선호도 데이터셋입니다. (2) 우리는 불확실성 인식 순위 손실을 사용하여 미세한 순위를 위한 VLM 기반 선호도 모델을 도입했습니다. 또한, Chain-of-Human-Preference(CoHP)를 제안합니다. 이는 추가 데이터 없이도 이미지 품질을 향상시키는 반복적인 이미지 개선 방법으로, 각 단계에서 최상의 이미지를 선택하기 위해 HPSv3를 사용합니다. 광범위한 실험을 통해 HPSv3가 광범위한 이미지 평가를 위한 강력한 지표로 작용하며, CoHP가 이미지 생성 품질을 개선하는 효율적이고 인간과 일치된 접근 방식을 제공함을 입증했습니다. 코드와 데이터셋은 HPSv3 홈페이지에서 확인할 수 있습니다.
본 논문에서는 단일 비디오 입력으로부터 고품질의 동적 3D 콘텐츠를 생성하는 비디오-투-4D 생성을 위한 새로운 프레임워크를 제시합니다. 직접적인 4D 확산 모델링은 데이터 구성의 높은 비용과 3D 형태, 외관, 움직임을 동시에 표현해야 하는 고차원적 특성으로 인해 매우 어려운 과제입니다. 이러한 문제를 해결하기 위해, 우리는 Direct 4DMesh-to-GS Variation Field VAE를 도입하여 3D 애니메이션 데이터로부터 정규화된 가우시안 스플랫(GS)과 그 시간적 변화를 인스턴스별 피팅 없이 직접 인코딩하고, 고차원 애니메이션을 간결한 잠재 공간으로 압축합니다. 이 효율적인 표현을 기반으로, 입력 비디오와 정규화된 GS를 조건으로 하는 시간 인식 확산 트랜스포머를 활용한 가우시안 변이 필드 확산 모델을 학습합니다. Objaverse 데이터셋에서 선별된 애니메이션 가능한 3D 객체를 학습 데이터로 사용하여, 우리의 모델은 기존 방법 대비 우수한 생성 품질을 보여줍니다. 또한, 합성 데이터로만 학습되었음에도 불구하고 실제 비디오 입력에 대한 놀라운 일반화 능력을 보여주며, 고품질 애니메이션 3D 콘텐츠 생성의 길을 열어줍니다. 프로젝트 페이지: https://gvfdiffusion.github.io/.
비디오 가상 피팅(VVT) 기술은 전자상거래 광고 및 엔터테인먼트 분야에서의 유망한 응용 가능성으로 인해 상당한 학문적 관심을 받고 있습니다. 그러나 기존의 대부분의 종단 간(end-to-end) 방법들은 희소한 페어링된 의복 중심 데이터셋에 크게 의존하며, 고급 시각 모델과 테스트 시 입력 데이터의 사전 지식을 효과적으로 활용하지 못해 제약 없는 시나리오에서 미세한 의복 디테일을 정확하게 보존하고 시간적 일관성을 유지하는 데 어려움을 겪고 있습니다. 이러한 문제를 해결하기 위해, 우리는 Diffusion Transformers(DiTs)를 기반으로 한 두 단계 프레임워크인 DreamVVT를 제안합니다. 이 프레임워크는 다양한 페어링되지 않은 인간 중심 데이터를 활용하여 실세계 시나리오에서의 적응성을 향상시키는 데 본질적으로 능합니다. 사전 학습된 모델과 테스트 시 입력 데이터의 사전 지식을 더욱 효과적으로 활용하기 위해, 첫 번째 단계에서는 입력 비디오에서 대표 프레임을 샘플링하고, 비전-언어 모델(VLM)과 통합된 다중 프레임 피팅 모델을 사용하여 고해상도이고 의미적으로 일관된 키프레임 피팅 이미지를 합성합니다. 이러한 이미지는 후속 비디오 생성을 위한 보완적인 외관 가이드 역할을 합니다. 두 번째 단계에서는 입력 콘텐츠에서 스켈레톤 맵과 함께 미세한 동작 및 외관 설명을 추출하고, 이를 키프레임 피팅 이미지와 함께 LoRA 어댑터로 강화된 사전 학습된 비디오 생성 모델에 입력합니다. 이를 통해 보이지 않는 영역에 대한 장기적 시간적 일관성을 보장하고 매우 그럴듯한 동적 동작을 가능하게 합니다. 광범위한 정량적 및 정성적 실험을 통해 DreamVVT가 실세계 시나리오에서 의복 디테일을 보존하고 시간적 안정성을 유지하는 데 있어 기존 방법들을 능가함을 입증했습니다. 우리의 프로젝트 페이지는 https://virtu-lab.github.io/에서 확인할 수 있습니다.
인공지능(AI) 학회는 연구 발전, 지식 공유, 학계 공동체 조성에 필수적입니다. 그러나 학회의 급속한 확장으로 인해 중앙 집중형 학회 모델은 점점 더 지속 가능하지 못한 상황에 직면해 있습니다. 본 논문은 과학적 지식 전파, 형평성, 공동체 복지라는 근본적인 목표를 위협하는 구조적 위기에 대한 데이터 기반 진단을 제시합니다. 우리는 네 가지 주요 압박 요인을 식별했습니다: (1) 과학적 측면에서, 저자당 출판률이 지난 10년간 두 배 이상 증가하여 연간 4.5편 이상에 이르렀고; (2) 환경적 측면에서, 단일 학회의 탄소 발자국이 개최 도시의 일일 배출량을 초과하며; (3) 심리적 측면에서, 온라인 커뮤니티 담론의 71%가 부정적 정서를 반영하고 35%가 정신 건강 문제를 언급하며; (4) 물류적 측면에서, NeurIPS 2024와 같은 주요 학회의 참석 인원이 개최 장소 수용 능력을 초과하기 시작했습니다. 이러한 압박은 학회 시스템이 핵심 사명과 어긋나 있음을 보여줍니다. 이에 대한 대응으로, 우리는 피어 리뷰, 발표, 네트워킹을 전 세계적으로 조율되지만 지역적으로 조직되는 구성 요소로 분리한 커뮤니티 연합 학회(Community-Federated Conference, CFC) 모델을 제안합니다. 이 모델은 AI 연구를 위한 더 지속 가능하고 포용적이며 회복력 있는 길을 제시합니다.
대규모 언어 모델(LLMs)은 장문맥 작업을 가능하게 하지만, 키-값(KV) 캐시의 증가로 인해 효율성 문제에 직면하고 있습니다. 우리는 LeanK를 제안합니다. 이는 정적 채널 희소성을 활용하여 중요하지 않은 키(K) 캐시 채널을 제거하는 학습 기반 방법입니다. LeanK는 새로운 두 단계 학습 프로세스를 통해 특정 희소성 비율과 하드웨어 정렬 요구 사항을 충족할 수 있는 채널별 정적 마스크를 학습합니다. LeanK는 정확도를 희생하지 않으면서 GPU 메모리를 절약하고 디코딩 속도를 가속화합니다. 실험 결과, 최대 70%의 K 캐시와 16%-18%의 V 캐시 메모리 감소를 보여줍니다. 맞춤형 디코딩 커널은 어텐션 계산에서 1.3배의 속도 향상을 가능하게 합니다. 또한 학습된 중요도 분포를 분석함으로써 장문맥 추론 과정에서의 모델 채널과 어텐션 헤드에 대한 통찰을 제공합니다. 우리의 코드는 https://aka.ms/LeanK에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)은 긴 문맥을 처리할 때 사전 간섭(proactive interference)으로 인해 성능이 크게 저하되는 문제를 겪습니다. 이는 문맥의 앞부분에 있는 관련 없는 정보가 추론과 기억 회상을 방해하기 때문입니다. 대부분의 연구가 LLM의 능력을 확장하기 위한 외부 메모리 시스템에 초점을 맞추는 반면, 우리는 보완적인 접근 방식을 제안합니다: LLM에 능동적 문맥 관리(Active Context Management, ACM) 도구를 제공하여 내부 작업 메모리를 능동적으로 조각하는 것입니다. 우리는 Sculptor라는 프레임워크를 소개하며, 이는 LLM에 세 가지 범주의 도구를 제공합니다: (1) 문맥 분할, (2) 요약, 숨기기 및 복원, (3) 지능형 검색. 우리의 접근 방식은 LLM이 주의와 작업 메모리를 능동적으로 관리할 수 있도록 하여, 인간이 관련 정보에 선택적으로 집중하면서 방해 요소를 걸러내는 방식과 유사합니다. 정보가 희소한 벤치마크인 PI-LLM(사전 간섭)과 NeedleBench Multi-Needle Reasoning에서의 실험적 평가는 Sculptor가 특별한 훈련 없이도 LLM의 내재된 도구 호출 일반화 능력을 활용하여 성능을 크게 향상시킨다는 것을 보여줍니다. 능동적 문맥 관리를 가능하게 함으로써, Sculptor는 사전 간섭을 완화할 뿐만 아니라 다양한 장문맥 작업에서 더 신뢰할 수 있는 추론을 위한 인지적 기반을 제공합니다. 이는 더 큰 토큰 윈도우보다는 명시적인 문맥 제어 전략이 대규모에서의 견고성을 위한 핵심임을 강조합니다.
자동 형식화(autoformalization)는 자연어로 표현된 수학적 명제를 형식 언어로 변환하는 것을 목표로 합니다. 대형 언어 모델(LLM)이 이 분야의 발전을 가속화했지만, 기존 방법들은 여전히 낮은 정확도 문제를 안고 있습니다. 우리는 효과적인 자동 형식화를 위해 두 가지 핵심 능력을 식별했습니다: 형식 언어 도메인 지식에 대한 포괄적인 숙달, 그리고 자연어 문제 이해와 비형식-형식 정렬을 위한 추론 능력입니다. 전자가 없으면 모델은 올바른 형식 객체를 식별할 수 없으며, 후자가 없으면 실제 세계의 맥락을 해석하고 이를 정확히 형식 표현으로 매핑하는 데 어려움을 겪습니다. 이러한 격차를 해결하기 위해 우리는 두 가지 능력을 모두 향상시키는 데이터 합성 및 학습 파이프라인인 ThinkingF를 소개합니다. 먼저, 형식 지식이 풍부한 대규모 예제를 정제하고 선별하여 구성한 데이터셋과, 전문가가 설계한 템플릿에 따라 비형식-형식 추론 궤적을 생성한 데이터셋을 구축합니다. 그런 다음 이 데이터셋을 활용해 SFT(지도 미세 조정)와 RLVR(강화 학습 기반 검증 및 개선)을 적용하여 두 능력을 더욱 융합하고 정제합니다. 그 결과, 7B와 32B 모델은 포괄적인 형식 지식과 강력한 비형식-형식 추론 능력을 모두 보여줍니다. 특히, StepFun-Formalizer-32B는 FormalMATH-Lite에서 40.5%, ProverBench에서 26.7%의 SOTA BEq@1 점수를 달성하며, 모든 기존의 범용 및 특화 모델을 능가했습니다.
대형 언어 모델은 에이전트가 개방형 웹 환경에서 자율적으로 작업을 수행할 수 있게 합니다. 그러나 웹 내의 숨겨진 위협이 진화함에 따라, 웹 에이전트는 장기간 작업 중에 작업 성능과 새롭게 발생하는 위험 사이의 균형을 맞추는 과제에 직면합니다. 이 문제는 매우 중요함에도 불구하고, 현재 연구는 단일 목표 최적화나 단일 턴 시나리오에 국한되어 있어, 웹 환경에서 안전성과 유용성 모두를 협력적으로 최적화할 수 있는 능력이 부족합니다. 이러한 격차를 해결하기 위해, 우리는 정책 강화와 목표 최적화를 통해 유용성과 안전성을 함께 개선하는 다중 에이전트 협업 프레임워크인 HarmonyGuard를 제안합니다. HarmonyGuard는 두 가지 기본 능력으로 특징지어지는 다중 에이전트 아키텍처를 갖추고 있습니다: (1) 적응형 정책 강화: HarmonyGuard 내의 정책 에이전트는 비정형 외부 문서로부터 구조화된 보안 정책을 자동으로 추출하고 유지하며, 진화하는 위협에 대응하여 정책을 지속적으로 업데이트합니다. (2) 이중 목표 최적화: 안전성과 유용성이라는 이중 목표를 기반으로, HarmonyGuard에 통합된 유용성 에이전트는 마코비안 실시간 추론을 수행하여 목표를 평가하고, 메타인지 능력을 활용하여 이를 최적화합니다. 여러 벤치마크에 대한 광범위한 평가 결과, HarmonyGuard는 기존 기준 대비 정책 준수율을 최대 38%, 작업 완료율을 최대 20% 향상시키며, 모든 작업에서 90% 이상의 정책 준수율을 달성했습니다. 우리의 프로젝트는 여기에서 확인할 수 있습니다: https://github.com/YurunChen/HarmonyGuard.
현재 대규모 오디오 언어 모델(LALMs)을 위한 접근 방식은 주로 폐쇄된 데이터 소스나 독점 모델에 의존하고 있어 일반화와 접근성이 제한적이다. 본 논문은 MiDashengLM이라는 새로운 오픈 오디오-언어 모델을 소개한다. 이 모델은 우리가 개발한 새로운 ACAVCaps 학습 데이터셋을 활용하여 일반 오디오 캡션을 통해 효율적이고 포괄적인 오디오 이해를 목표로 한다. MiDashengLM은 공개적으로 이용 가능한 사전 학습 및 지도 미세 조정(SFT) 데이터셋만을 사용함으로써 완전한 투명성과 재현성을 보장한다. MiDashengLM의 핵심에는 다양한 청각 정보를 효과적으로 처리하기 위해 특별히 설계된 오픈소스 오디오 인코더인 Dasheng이 통합되어 있다. 기존 연구가 주로 자동 음성 인식(ASR) 기반 오디오-텍스트 정렬에 초점을 맞췄던 것과 달리, 우리의 전략은 일반 오디오 캡션에 중점을 두어 음성, 소리, 음악 정보를 하나의 텍스트 표현으로 융합함으로써 복잡한 오디오 장면을 포괄적으로 텍스트로 표현할 수 있도록 한다. 마지막으로, MiDashengLM은 첫 토큰까지의 시간(TTFT) 측면에서 최대 4배의 속도 향상과 처리량 측면에서 유사 모델 대비 최대 20배의 성능 향상을 제공한다. 체크포인트는 https://huggingface.co/mispeech/midashenglm-7b와 https://github.com/xiaomi-research/dasheng-lm에서 확인할 수 있다.
인스턴스 분할은 생체의학 영상에서 크기가 다양하고 종종 겹치는 세포와 같은 개별 객체를 정확히 구분하는 데 필수적이다. 최근 객체 쿼리가 분할을 안내하는 쿼리 기반 방법들이 강력한 성능을 보여주고 있다. U-Net은 의료 영상 분할에서 주로 사용되는 아키텍처였지만, 쿼리 기반 접근법에서의 잠재력은 아직 크게 탐구되지 않았다. 본 연구에서는 새로운 쿼리 기반 U-Net 아키텍처인 IAUNet을 제안한다. 핵심 설계는 완전한 U-Net 아키텍처를 기반으로 하며, 경량 컨볼루션 픽셀 디코더를 통해 모델의 효율성을 높이고 매개변수 수를 줄였다. 또한, 다중 스케일에서 객체 특정 특징을 정제하는 트랜스포머 디코더를 제안한다. 마지막으로, 밝은 시야 영상에서 겹치는 세포 세포질에 대한 상세 주석을 포함한 2025 Revvity Full Cell Segmentation Dataset을 소개하며, 이는 생체의학 인스턴스 분할을 위한 새로운 벤치마크를 설정한다. 여러 공개 데이터셋과 자체 데이터셋에서의 실험 결과, IAUNet은 대부분의 최첨단 완전 컨볼루션, 트랜스포머 기반, 쿼리 기반 모델 및 세포 분할 특화 모델을 능가하며, 세포 인스턴스 분할 작업을 위한 강력한 기준을 제시한다. 코드는 https://github.com/SlavkoPrytula/IAUNet에서 확인할 수 있다.
명명된 개체 인식(Named-entity recognition, NER)은 구조화되지 않은 임상 노트와 생의학 문헌에 존재하는 의료 데이터의 80% 이상에서 구조화된 정보를 추출하는 데 필수적인 기술입니다. 대규모 언어 모델의 최근 발전에도 불구하고, 다양한 개체 유형에서 최첨단 성능을 달성하면서도 계산 효율성을 유지하는 것은 여전히 중요한 과제로 남아 있습니다. 우리는 OpenMed NER을 소개합니다. 이는 경량화된 도메인 적응 사전 학습(Domain-Adaptive Pre-Training, DAPT)과 매개변수 효율적인 Low-Rank Adaptation(LoRA)을 결합한 오픈소스, 도메인 적응형 트랜스포머 모델 제품군입니다. 우리의 접근 방식은 윤리적으로 수집된 공개 연구 저장소와 비식별화된 임상 노트(PubMed, arXiv, MIMIC-III)에서 컴파일된 35만 개의 텍스트 코퍼스에 대해 DeBERTa-v3, PubMedBERT, BioELECTRA 백본을 사용하여 비용 효율적인 DAPT를 수행합니다. 이어서 LoRA를 사용한 작업별 미세 조정을 통해 모델 매개변수의 1.5% 미만만 업데이트합니다. 우리는 화학물질, 질병, 유전자, 종을 포함한 12개의 확립된 생의학 NER 벤치마크에서 모델을 평가합니다. OpenMed NER은 이 12개 데이터셋 중 10개에서 새로운 최첨단 micro-F1 점수를 달성하며, 다양한 개체 유형에서 상당한 성능 향상을 보여줍니다. 우리의 모델은 기본적인 질병 및 화학물질 벤치마크(예: BC5CDR-Disease, +2.70 pp)에서 최첨단 성능을 개선하는 한편, 더 전문화된 유전자 및 임상 세포주 코퍼스에서는 각각 5.3%와 9.7% 이상의 더 큰 성능 향상을 제공합니다. 이 작업은 전략적으로 적응된 오픈소스 모델이 클로즈드소스 솔루션을 능가할 수 있음을 보여줍니다. 이러한 성능은 놀라운 효율성으로 달성되었습니다: 단일 GPU에서 12시간 이내에 학습이 완료되며, 낮은 탄소 배출량(< 1.2 kg CO2e)을 보이고, EU AI Act과 같은 신흥 데이터 보호 및 AI 규정 준수를 지원하기 위해 설계된 허가형 오픈소스 체크포인트를 생성합니다.
Rust의 컴파일 타임 안전성 보장은 안전이 중요한 시스템에 이상적이며, 이로 인해 레거시 C 코드베이스를 Rust로 변환하는 수요가 증가하고 있습니다. 이 작업을 위해 다양한 접근 방식이 등장했지만, 이들은 본질적인 트레이드오프에 직면해 있습니다: 규칙 기반 솔루션은 코드 안전성과 관용성 요구 사항을 충족하는 데 어려움을 겪는 반면, LLM 기반 솔루션은 전체 코드베이스에 걸친 모듈 간의 강력한 의존성으로 인해 의미적으로 동등한 Rust 코드를 생성하는 데 종종 실패합니다. 최근 연구에 따르면, 두 솔루션 모두 소규모 프로그램에만 제한적으로 적용 가능한 것으로 나타났습니다. 본 논문에서는 전체 C 프로젝트를 동등한 Rust 프로젝트로 변환하기 위한 자동화된 프레임워크인 EvoC2Rust를 제안합니다. EvoC2Rust는 프로젝트 수준의 변환을 위해 스켈레톤 가이드 변환 전략을 사용합니다. 이 파이프라인은 세 가지 진화 단계로 구성됩니다: 1) 먼저 C 프로젝트를 기능적 모듈로 분해하고, 기능 매핑이 강화된 LLM을 사용하여 정의와 매크로를 변환하며, 타입 검사된 함수 스텁을 생성하여 컴파일 가능한 Rust 스켈레톤을 형성합니다; 2) 그런 다음 함수를 점진적으로 변환하여 해당 스텁 플레이스홀더를 대체합니다; 3) 마지막으로, LLM과 정적 분석을 통합하여 컴파일 오류를 수정합니다. 진화적 증강을 통해 EvoC2Rust는 규칙 기반과 LLM 기반 솔루션의 장점을 결합합니다. 오픈소스 벤치마크와 6개의 산업 프로젝트에 대한 평가를 통해 EvoC2Rust가 프로젝트 수준의 C-to-Rust 변환에서 우수한 성능을 보임을 입증했습니다. 평균적으로, EvoC2Rust는 LLM 기반 접근 방식에 비해 구문 및 의미 정확도에서 각각 17.24%와 14.32%의 개선을 달성했으며, 규칙 기반 도구에 비해 코드 안전성 비율이 96.79% 더 높았습니다. 모듈 수준에서는, EvoC2Rust가 산업 프로젝트에서 복잡한 코드베이스와 긴 함수에도 불구하고 92.25%의 컴파일 성공률과 89.53%의 테스트 통과률을 기록했습니다.
본 논문에서는 3D 전신 인체 자세를 위한 확산 기반 사전 모델인 DPoser-X를 제안한다. 관절형 인체 자세의 복잡성과 고품질 전신 자세 데이터셋의 부족으로 인해, 다재다능하고 견고한 전신 인체 자세 사전 모델을 구축하는 것은 여전히 어려운 과제로 남아 있다. 이러한 한계를 극복하기 위해, 우리는 확산 모델을 바탕으로 한 자세 사전 모델(Diffusion model as body Pose prior, DPoser)을 도입하고, 이를 표현력 있는 전신 인체 자세 모델링을 위한 DPoser-X로 확장하였다. 우리의 접근 방식은 다양한 자세 중심 작업을 역문제로 통합하고, 이를 변분 확산 샘플링을 통해 해결한다. 다운스트림 애플리케이션에서의 성능을 향상시키기 위해, 자세 데이터 특성에 맞춰 설계된 새로운 절단 시간 스케줄링 방법을 제안한다. 또한, 전신 및 부위별 데이터셋을 효과적으로 결합하는 마스크 훈련 메커니즘을 제안하여, 특정 동작에 과적합되는 것을 방지하면서도 신체 부위 간의 상호 의존성을 포착할 수 있도록 하였다. 다양한 벤치마크에서 수행된 광범위한 실험을 통해 DPoser-X가 신체, 손, 얼굴 및 전신 자세 모델링에 걸쳐 견고성과 다재다능성을 입증하였다. 우리의 모델은 최신 대안들을 일관되게 능가하며, 전신 인체 자세 사전 모델링에 대한 새로운 벤치마크를 확립하였다.
검증 가능한 보상을 통한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 복잡한 추론 능력을 크게 발전시켰습니다. 그러나 RLVR은 본질적으로 온-정책 전략과 LLM의 방대한 행동 공간 및 희소한 보상으로 인해 기본 LLM의 고유한 능력 한계를 극복하는 데 어려움을 겪습니다. 특히, RLVR은 능력 한계 붕괴를 초래하여 LLM의 문제 해결 범위를 좁힐 수 있습니다. 이 문제를 해결하기 위해, 우리는 기본 모델의 한계를 넘어서는 더 강력한 추론 능력을 달성하기 위해 내부 활용과 외부 데이터를 시너지적으로 결합한 새로운 하이브리드 정책 최적화 접근법인 RL-PLUS를 제안합니다. RL-PLUS는 두 가지 핵심 구성 요소를 통합합니다. 첫째, 외부 데이터로 인한 분포 불일치를 해결하기 위한 다중 중요도 샘플링(Multiple Importance Sampling)과, 둘째, 모델이 고가치의 탐색되지 않은 추론 경로로 이끌도록 하는 탐색 기반 이점 함수(Exploration-Based Advantage Function)입니다. 우리는 이 접근법의 우수성과 일반화 가능성을 입증하기 위해 이론적 분석과 광범위한 실험을 제공합니다. 기존 RLVR 방법과 비교하여, RL-PLUS는 1) 여섯 개의 수학 추론 벤치마크에서 최첨단 성능을 달성하고, 2) 여섯 개의 분포 외 추론 작업에서 우수한 성능을 보이며, 3) 다양한 모델 패밀리에서 일관되고 상당한 성능 향상을 보여 평균 상대적 개선률이 최대 69.2%에 이릅니다. 또한, Pass@k 곡선 분석은 RL-PLUS가 능력 한계 붕괴 문제를 효과적으로 해결함을 보여줍니다.
시각적 그라운딩(Visual grounding)은 자연어 설명을 기반으로 장면 내 객체나 영역을 식별하는 것을 목표로 하며, 자율 주행에서 공간 인식에 필수적인 기술입니다. 그러나 기존의 시각적 그라운딩 작업은 일반적으로 바운딩 박스에 의존하는데, 이는 종종 세부적인 정보를 충분히 포착하지 못합니다. 바운딩 박스 내의 모든 복셀(voxel)이 객체로 채워져 있지 않기 때문에, 객체 표현이 부정확해지는 문제가 발생합니다. 이를 해결하기 위해, 우리는 도전적인 야외 장면에서의 3D 점유 그라운딩(3D occupancy grounding)을 위한 벤치마크를 소개합니다. 이 벤치마크는 nuScenes 데이터셋을 기반으로 하며, 자연어와 복셀 단위의 점유 주석을 통합하여 기존의 그라운딩 작업보다 더 정밀한 객체 인식을 제공합니다. 또한, 우리는 다중 모달 학습을 통해 3D 점유 그라운딩을 수행하기 위한 end-to-end 모델인 GroundingOcc를 제안합니다. 이 모델은 시각적, 텍스트, 포인트 클라우드 특징을 결합하여 객체의 위치와 점유 정보를 coarse-to-fine 방식으로 예측합니다. 구체적으로, GroundingOcc는 특징 추출을 위한 다중 모달 인코더, 복셀 단위 예측을 위한 점유 헤드(occupancy head), 그리고 위치 정밀화를 위한 그라운딩 헤드(grounding head)로 구성됩니다. 추가적으로, 2D 그라운딩 모듈과 깊이 추정 모듈은 기하학적 이해를 강화하여 모델 성능을 향상시킵니다. 벤치마크에서의 광범위한 실험을 통해, 우리의 방법이 기존의 3D 점유 그라운딩 베이스라인을 능가함을 입증했습니다. 데이터셋은 https://github.com/RONINGOD/GroundingOcc에서 확인할 수 있습니다.
장문 사실성 평가는 모델이 짧은 프롬프트에 대해 정확하고 포괄적인 응답을 생성하는 능력을 평가합니다. 기존 벤치마크는 종종 인간 검증이 부족하여 잠재적인 품질 문제를 야기합니다. 이러한 한계를 해결하기 위해 우리는 대규모의 인간 검증 프롬프트 세트인 FACTORY를 소개합니다. 모델-인-더-루프 접근법을 사용하여 개발되고 인간에 의해 정제된 FACTORY는 사실을 탐구하고, 답변이 가능하며, 모호하지 않은 도전적인 프롬프트를 포함합니다. 우리는 FACTORY와 기존 데이터셋을 사용하여 6개의 최신 언어 모델에 대한 인간 평가를 수행합니다. 우리의 결과는 FACTORY가 도전적인 벤치마크임을 보여줍니다: SOTA 모델의 응답에서 주장된 내용의 약 40%가 사실이 아닌 반면, 다른 데이터셋의 경우 이 비율은 10%에 불과합니다. 우리의 분석은 FACTORY가 이전 벤치마크에 비해 가지는 강점을 확인하며, 그 신뢰성과 모델이 장꼬리 사실에 걸쳐 추론할 필요성을 강조합니다.
모바일 네트워크에서의 근본 원인 분석(Root Cause Analysis, RCA)은 해석 가능성, 도메인 전문성, 그리고 인과적 추론의 필요성으로 인해 여전히 어려운 과제로 남아 있다. 본 연구에서는 RCA를 위해 대규모 언어 모델(Large Language Models, LLMs)을 활용하는 경량 프레임워크를 제안한다. 이를 위해, RCA 능력을 벤치마킹하기 위해 설계된 주석이 달린 문제 해결 데이터셋인 TeleLogs를 소개한다. 평가 결과, 기존의 오픈소스 추론 LLM들은 이러한 문제들에 대해 어려움을 겪는 것으로 나타났으며, 이는 도메인 특화적 적응의 필요성을 강조한다. 이 문제를 해결하기 위해, 우리는 지도 학습 미세 조정과 강화 학습을 결합한 두 단계의 학습 방법론을 제안하여 LLM의 정확도와 추론 품질을 향상시킨다. 제안된 접근 방식은 일련의 RCA 모델을 미세 조정하여 도메인 지식을 통합하고 구조화된 다단계 진단 설명을 생성함으로써 해석 가능성과 효과성을 모두 개선한다. 다양한 크기의 LLM에 걸친 광범위한 실험은 최신 추론 및 비추론 모델 대비 상당한 성능 향상을 보여주며, 무작위 테스트 변형에 대한 강력한 일반화 능력을 입증한다. 이러한 결과는 네트워크 운영 및 관리에서 실용적이고 설명 가능한 RCA를 위해 도메인 적응 및 추론 강화된 LLM의 잠재력을 보여준다.
자율 주행은 도로 기하학, 교통 요소 및 이들의 의미적 관계를 포함한 정확한 장면 이해를 요구합니다. 온라인 HD 맵 생성 시나리오에서, 래스터 기반 표현은 비전 모델에 적합하지만 기하학적 정밀도가 부족한 반면, 그래프 기반 표현은 구조적 세부 정보를 유지하지만 정확한 맵 없이는 불안정해집니다. 이 두 가지의 상호 보완적 강점을 활용하기 위해, 우리는 다중 모드 궤적 예측 및 계획을 위한 융합 프레임워크인 DiffSemanticFusion을 제안합니다. 우리의 접근 방식은 맵 확산 모듈로 강화된 의미적 래스터 융합 BEV 공간에서 추론하며, 이를 통해 온라인 HD 맵 표현의 안정성과 표현력을 모두 향상시킵니다. 우리는 이 프레임워크를 두 가지 하위 작업에서 검증했습니다: 궤적 예측 및 계획 지향적 종단간 자율 주행. 실제 자율 주행 벤치마크인 nuScenes와 NAVSIM에서의 실험은 여러 최신 방법들보다 향상된 성능을 보여줍니다. nuScenes에서의 예측 작업에서는, DiffSemanticFusion을 온라인 HD 맵 정보를 활용한 QCNet과 통합하여 5.1%의 성능 향상을 달성했습니다. NAVSIM에서의 종단간 자율 주행에서는, DiffSemanticFusion이 최신 결과를 달성하며 NavHard 시나리오에서 15%의 성능 향상을 보였습니다. 또한, 광범위한 절제 및 민감도 연구를 통해 우리의 맵 확산 모듈이 다른 벡터 기반 접근 방식에 원활하게 통합되어 성능을 향상시킬 수 있음을 보여줍니다. 모든 자료는 https://github.com/SunZhigang7/DiffSemanticFusion에서 확인할 수 있습니다.
텍스트-투-3D(T23D) 생성은 디지털 콘텐츠 제작을 혁신적으로 변화시켰지만, 예측 불가능한 결과를 초래하는 맹목적인 시행착오 프롬프트 과정으로 인해 여전히 병목 현상을 겪고 있다. 텍스트-투-이미지 분야에서는 시각적 프롬프트 엔지니어링이 발전했지만, 이를 3D 생성에 적용할 때는 다중 뷰 일관성 평가와 공간적 이해가 요구되는 독특한 도전 과제가 존재한다. 본 논문에서는 T23D를 위한 시각적 프롬프트 엔지니어링 시스템인 Sel3DCraft를 소개한다. 이 시스템은 구조화되지 않은 탐색 과정을 가이드된 시각적 프로세스로 전환한다. 우리의 접근 방식은 세 가지 주요 혁신을 도입한다: 다양한 후보 탐색을 위해 검색과 생성을 결합한 이중 분기 구조; 인간 전문가 수준의 일관성으로 3D 모델을 평가하기 위해 혁신적인 고수준 메트릭과 MLLM(Multi-modal Large Language Models)을 활용한 다중 뷰 하이브리드 스코어링 접근법; 그리고 직관적인 결함 식별 및 개선을 가능하게 하는 프롬프트 기반 시각적 분석 도구 모음이다. 광범위한 테스트와 사용자 연구를 통해 Sel3DCraft가 디자이너들의 창의성을 지원하는 데 있어 다른 T23D 시스템을 능가함을 입증하였다.
검증 가능한 보상을 활용한 강화 학습(RLVR)은 대규모 언어 모델(LLM)의 명령어 수행 능력을 향상시키지만, 난이도 평가의 부적절함으로 인해 학습 효율성이 떨어지는 문제가 있습니다. 또한 RLVR은 과도한 최적화 경향이 있어, LLM이 사용자 명령어의 실제 의도와 일치하지 않으면서 검증 단축키를 악용하는 경우가 발생합니다. 본 연구에서는 RLVR 학습을 견고하고 샘플 효율적인 파이프라인으로 감싸는 명령어 수행 데코레이터(IFDecorator) 프레임워크를 소개합니다. 이 프레임워크는 세 가지 구성 요소로 이루어져 있습니다: (1) 협력적-적대적 데이터 플라이휠로, 명령어와 하이브리드 검증을 공동 진화시켜 점점 더 도전적인 명령어-검증 쌍을 생성합니다; (2) IntentCheck, 의도 정렬을 강제하는 우회 모듈; (3) 트립 와이어, 단축키 악용 행위를 유발하고 포착하는 트랩 명령어를 통해 보상 해킹을 탐지하는 진단 메커니즘입니다. 우리의 Qwen2.5-32B-Instruct-IFDecorator는 IFEval에서 87.43%의 정확도를 달성하며, GPT-4o와 같은 더 큰 규모의 독점 모델을 능가합니다. 또한 FollowBench에서 상당한 개선을 보이면서도 일반적인 능력을 유지합니다. 우리의 트립 와이어는 보상 해킹 비율을 크게 감소시켰습니다. 향후 연구를 위해 모델, 코드, 데이터를 공개할 예정입니다.
LLM(대형 언어 모델)의 추론 능력 발전은 수학 문제 해결, 코딩 작업, 일반 퍼즐 등에서의 성능을 크게 향상시켰지만, 특히 복잡한 지시사항에 대한 정확한 준수 여부는 여전히 일관되지 않습니다. 우리의 연구는 사고 단계에서의 게으른 추론이 지시사항 준수 실패의 주요 요인임을 밝혔습니다. 이를 해결하기 위해, 우리는 엄격한 지시사항 제약을 충족시키기 위해 필수적인 미리보기와 자기 점검을 포함한 엄격한 추론 프로세스를 가능하게 하는 포괄적인 프레임워크를 제안합니다. 구체적으로, 먼저 복잡한 제약 조건이 포함된 지시사항을 생성하고 필터링 과정을 거쳐 유효한 프롬프트를 얻으며, 이를 통해 hard, easy, pass 세 가지 범주로 구분된 프롬프트 데이터셋을 구축합니다. 그런 다음, pass 프롬프트에 대해 거부 샘플링을 적용하여 소규모이지만 고품질의 데이터셋을 선별함으로써 모델의 콜드 스타트 초기화를 가능하게 하고 효과적인 추론 패턴에의 적응을 촉진합니다. 이후, 엔트로피 보존 지도 미세 조정(Entropy-SFT) 전략과 규칙 기반의 밀집 보상으로 안내된 토큰 단위 엔트로피 적응형(TEA-RL) 강화 학습을 결합하여 모델이 추론 메커니즘을 변형하도록 유도합니다. 이를 통해 미리보기와 자기 점검을 포함한 일반화 가능한 추론 능력을 키우는 것이 목표입니다. 지시사항 준수 벤치마크에서 수행된 광범위한 실험은 다양한 모델 규모에서 뛰어난 성능 향상을 보여줍니다. 특히, 우리의 Light-IF-32B 모델은 DeepSeek-R1과 같은 더 큰 오픈소스 모델과 Doubao-1.6과 같은 클로즈드소스 모델을 모두 능가하는 성과를 달성했습니다.
3D 이상 탐지(Anomaly Detection, AD)는 고정밀 산업 제품의 이상 또는 결함을 탐지하는 데 있어 큰 잠재력을 보여주고 있습니다. 그러나 기존 방법들은 일반적으로 클래스별로 특화된 방식으로 학습되며, 새로운 클래스로부터 학습할 수 있는 능력이 부족합니다. 본 연구에서는 Continual 3D Anomaly Detection (C3D-AD)라는 지속 학습 프레임워크를 제안하였습니다. 이 프레임워크는 다중 클래스 포인트 클라우드에 대한 일반화된 표현을 학습할 수 있을 뿐만 아니라 시간이 지남에 따라 등장하는 새로운 클래스도 처리할 수 있습니다. 구체적으로, 특징 추출 모듈에서는 다양한 작업의 제품 유형으로부터 효율적으로 일반화된 지역 특징을 추출하기 위해 Kernel Attention with random feature Layer (KAL)을 도입하여 특징 공간을 정규화합니다. 그런 다음, 데이터를 정확하고 지속적으로 재구성하기 위해 학습 가능한 Advisor를 갖춘 Kernel Attention (KAA) 메커니즘을 제안하였습니다. 이 메커니즘은 새로운 카테고리의 정보를 학습하면서 인코더와 디코더 내에서 불필요한 이전 정보를 버립니다. 마지막으로, 작업 간 표현 일관성을 유지하기 위해 Reconstruction with Parameter Perturbation (RPP) 모듈을 제안하였습니다. 이 모듈은 표현 리허설 손실 함수를 설계하여 모델이 이전 카테고리 정보를 기억하고 카테고리에 적응적인 표현을 반환하도록 합니다. 세 가지 공개 데이터셋에 대한 광범위한 실험을 통해 제안된 방법의 효과를 입증하였으며, Real3D-AD, Anomaly-ShapeNet, MulSen-AD에서 각각 66.4%, 83.1%, 63.4%의 평균 AUROC 성능을 달성하였습니다.
본 논문에서는 머신러닝 모델의 전체 라이프사이클에 걸쳐 체계적으로 편향을 관리, 평가, 정량화하는 접근 방식을 다룹니다. 이는 초기 개발 및 검증부터 지속적인 생산 모니터링 및 안전장치 구현에 이르기까지 모든 단계를 포함합니다. 대규모 언어 모델(LLMs)을 위한 편향 평가 및 평가 테스트 스위트(BEATS)에 대한 기초 작업을 바탕으로, 저자들은 LLMs에서 흔히 발견되는 편향 및 공정성 관련 격차를 공유하고, LLMs 내에서 편향, 윤리, 공정성 및 사실성을 해결하기 위한 데이터 및 AI 거버넌스 프레임워크를 논의합니다. 본 논문에서 논의된 데이터 및 AI 거버넌스 접근 방식은 실용적이고 실세계 애플리케이션에 적합하며, 생산 배포 전 LLMs의 엄격한 벤치마킹을 가능하게 하고, 지속적인 실시간 평가를 용이하게 하며, LLM 생성 응답을 사전에 관리할 수 있도록 합니다. AI 개발 라이프사이클 전반에 걸쳐 데이터 및 AI 거버넌스를 구현함으로써, 조직은 생성형 AI 시스템의 안전성과 책임성을 크게 향상시킬 수 있으며, 차별의 위험을 효과적으로 완화하고 잠재적인 평판 또는 브랜드 관련 피해로부터 보호할 수 있습니다. 궁극적으로, 본 논문을 통해 사회적으로 책임감 있고 윤리적으로 정렬된 생성형 인공지능 기반 애플리케이션의 생성 및 배포의 발전에 기여하고자 합니다.
음악 녹음은 특히 전문 장비나 지식이 없는 비전문적인 환경에서 제작될 경우 과도한 리버브, 왜곡, 클리핑, 음색 불균형, 좁아진 스테레오 이미지와 같은 오디오 품질 문제를 자주 겪습니다. 이러한 문제들은 일반적으로 별도의 전문 도구와 수동 조정을 통해 수정됩니다. 본 논문에서는 텍스트 기반 제어를 통해 다양한 오디오 결함을 해결하는 첫 번째 통합 생성 모델인 SonicMaster를 소개합니다. SonicMaster는 자연어 지시에 따라 특정 개선을 적용하거나 일반 복원을 위한 자동 모드로 작동할 수 있습니다. 이 모델을 학습시키기 위해 우리는 다섯 가지 개선 그룹(이퀄라이제이션, 다이내믹스, 리버브, 진폭, 스테레오)에 속하는 19가지 열화 함수를 사용하여 일반적인 열화 유형을 시뮬레이션한 대규모 데이터셋인 SonicMaster 데이터셋을 구축했습니다. 우리의 접근 방식은 플로우 매칭 생성 학습 패러다임을 활용하여 텍스트 프롬프트에 따라 열화된 입력을 정제된 마스터링 버전으로 매핑하는 오디오 변환을 학습합니다. 객관적인 오디오 품질 지표는 SonicMaster가 모든 결함 범주에서 음질을 크게 개선함을 보여줍니다. 또한, 주관적 청취 테스트에서도 청취자들이 원래의 열화된 오디오보다 SonicMaster의 개선된 출력을 선호하는 것으로 나타나 우리의 통합 접근 방식의 효과를 입증했습니다.
텍스트-이미지 확산 모델은 수십억 장의 이미지, 특히 유명 예술 작품들을 학습함으로써 예술적 콘텐츠를 생성하는 데 있어 놀라운 능력을 보여주었습니다. 그러나 이러한 모델들이 내부적으로 그림의 내용(content)과 스타일(style)과 같은 개념을 어떻게 표현하는지에 대한 근본적인 질문은 아직 탐구되지 않았습니다. 전통적인 컴퓨터 비전에서는 내용과 스타일이 서로 독립적이라고 가정하지만, 확산 모델은 훈련 중에 이러한 구분에 대한 명시적인 지침을 받지 않습니다. 본 연구에서는 트랜스포머 기반 텍스트-이미지 확산 모델이 예술 작품을 생성할 때 내용과 스타일 개념을 어떻게 인코딩하는지 조사합니다. 우리는 크로스-어텐션 히트맵을 활용하여 생성된 이미지의 픽셀을 특정 프롬프트 토큰에 귀속시킴으로써, 내용을 설명하는 토큰과 스타일을 설명하는 토큰이 영향을 미치는 이미지 영역을 분리할 수 있었습니다. 연구 결과에 따르면, 확산 모델은 요청된 특정 예술적 프롬프트와 스타일에 따라 다양한 정도의 내용-스타일 분리를 보여줍니다. 많은 경우, 내용 토큰은 주로 객체 관련 영역에 영향을 미치는 반면, 스타일 토큰은 배경과 텍스처 영역에 영향을 미치며, 이는 내용과 스타일의 구분에 대한 내재적 이해를 시사합니다. 이러한 통찰은 대규모 생성 모델이 명시적인 지도 없이도 복잡한 예술적 개념을 내부적으로 어떻게 표현하는지에 대한 이해를 돕습니다. 우리는 코드와 데이터셋, 그리고 어텐션 맵을 시각화하기 위한 탐색 도구를 https://github.com/umilISLab/artistic-prompt-interpretation에서 공유합니다.