번역이 포함된 일일 선별된 AI 연구 논문
대규모 언어 모델(LLM)의 등장은 인공지능 분야에 혁신적인 변화를 가져왔으며, 다양한 영역에서 정교한 추론, 강력한 인지, 그리고 다재다능한 행동이 가능한 고급 지능형 에이전트의 길을 열었습니다. 이러한 에이전트들이 점점 더 AI 연구와 실용적인 응용 분야를 주도함에 따라, 그들의 설계, 평가, 그리고 지속적인 개선은 복잡하고 다면적인 도전 과제를 제시합니다. 본 조사는 지능형 에이전트를 모듈화된, 뇌에서 영감을 받은 아키텍처 내에서 포괄적으로 개괄하며, 인지과학, 신경과학, 그리고 컴퓨팅 연구로부터의 원칙들을 통합합니다. 우리의 탐구는 네 가지 상호 연결된 부분으로 구조화됩니다. 첫째, 지능형 에이전트의 모듈화된 기초를 탐구하며, 그들의 인지, 지각, 그리고 운영 모듈을 인간 뇌의 유사 기능에 체계적으로 매핑하고, 기억, 세계 모델링, 보상 처리, 그리고 감정과 유사한 시스템과 같은 핵심 구성 요소를 명확히 설명합니다. 둘째, 자기 강화 및 적응적 진화 메커니즘을 논의하며, 에이전트가 어떻게 자율적으로 능력을 개선하고, 동적 환경에 적응하며, AutoML 및 LLM 기반 최적화 전략을 포함한 자동화된 최적화 패러다임을 통해 지속적인 학습을 달성하는지 탐구합니다. 셋째, 협업 및 진화적 다중 에이전트 시스템을 검토하며, 에이전트 상호작용, 협력, 그리고 사회적 구조로부터 발생하는 집단 지능을 조사하고, 인간 사회 역학과의 유사성을 강조합니다. 마지막으로, 안전하고 안전하며 유익한 AI 시스템 구축의 중요한 필요성을 다루며, 내재적 및 외재적 보안 위협, 윤리적 정렬, 견고성, 그리고 신뢰할 수 있는 실세계 배포를 위해 필요한 실질적인 완화 전략을 강조합니다.
대규모 언어 모델(LLM)을 학습시키는 과정에서는 그래디언트 불안정성과 손실 급증과 같은 다양한 문제가 발생합니다. 이러한 현상은 치명적인 발산을 초래할 수 있으며, 이로 인해 비용이 많이 드는 체크포인트 복구와 데이터 배치 건너뛰기가 필요해질 수 있습니다. 상수 또는 노름 기반의 전통적인 그래디언트 클리핑 기법은 고정된 임계값이나 휴리스틱에 의존하기 때문에 이러한 문제를 효과적으로 해결하지 못하며, 비효율적인 학습을 초래하고 빈번한 수동 개입을 필요로 합니다. 본 연구에서는 시간에 따른 그래디언트 노름의 통계적 특성을 기반으로 클리핑 임계값을 동적으로 조정하는 적응형 그래디언트 클리핑 알고리즘인 ZClip을 제안합니다. 기존의 반응적 전략과 달리, ZClip은 그래디언트 노름의 규모와 시간적 변화에 대한 사전 가정 없이 학습 동역학에 능동적으로 적응합니다. 핵심적으로, ZClip은 z-점수 기반 이상 탐지를 활용하여 큰 그래디언트 급증을 식별하고 완화함으로써 악성 손실 급증을 방지하면서도 수렴에 방해가 되지 않도록 합니다. 우리의 코드는 https://github.com/bluorion-com/ZClip에서 확인할 수 있습니다.
대규모 다중모달리티 모델(LMMs)은 시각적 이해와 생성 분야에서 상당한 진전을 이루었지만, 일반적인 시각 편집(General Visual Editing)에서는 여전히 복잡한 지시를 따르기, 외관 일관성 유지, 유연한 입력 형식 지원 등의 과제에 직면해 있습니다. 이러한 격차를 해소하기 위해, 우리는 추론 기반 시각 편집(Reasoning-Informed viSual Editing, RISE)을 평가하기 위한 첫 번째 벤치마크인 RISEBench을 소개합니다. RISEBench은 시간적(Temporal), 인과적(Causal), 공간적(Spatial), 논리적(Logical) 추론이라는 네 가지 주요 추론 유형에 초점을 맞추고 있습니다. 각 범주에 대해 고품질 테스트 케이스를 선별하고, 인간 평가자와 LMM-as-a-judge 접근법을 통해 지시 추론(Instruction Reasoning), 외관 일관성(Appearance Consistency), 시각적 타당성(Visual Plausibility)을 평가하는 프레임워크를 제안합니다. 우리의 실험 결과, GPT-4o-Native가 다른 오픈소스 및 상용 모델을 크게 앞지르는 것으로 나타났지만, 이 최첨단 시스템조차 논리적 추론 작업에서 어려움을 겪는 것으로 드러나, 이 분야가 여전히 미개척 상태임을 보여줍니다. 초기 단계로서, RISEBench은 추론 인식 시각 편집에 대한 기초적인 통찰을 제공하고 미래 연구를 촉진하는 것을 목표로 합니다. 아직 초기 단계이지만, 우리는 차세대 다중모달 시스템을 보다 포괄적이고 신뢰할 수 있으며 확장 가능한 방식으로 평가할 수 있도록 벤치마크를 지속적으로 확장하고 개선할 것을 약속합니다. 우리의 코드와 데이터는 https://github.com/PhoenixZ810/RISEBench에서 공개될 예정입니다.
OpenAI의 GPT4o 모델에서 최근 이루어진 획기적인 발전은 이미지 생성 및 편집에서 놀라울 정도로 뛰어난 능력을 보여주며, 커뮤니티 내에서 큰 흥미를 불러일으켰습니다. 이 기술 보고서는 GPT-4o의 성능을 세 가지 중요한 차원에서 정량적 및 정성적으로 진단하는 첫 번째 평가 벤치마크(GPT-ImgEval)를 소개합니다: (1) 생성 품질, (2) 편집 숙련도, (3) 세계 지식 기반 의미론적 합성. 이 세 가지 작업 모두에서 GPT-4o는 강력한 성능을 보이며, 이미지 생성 제어와 출력 품질에서 기존 방법을 크게 능가하는 동시에 탁월한 지식 추론 능력을 보여줍니다. 또한, GPT-4o의 생성 데이터를 기반으로, 우리는 GPT-4o의 내부 아키텍처를 조사하기 위한 분류 모델 기반 접근 방식을 제안합니다. 실험 결과는 이 모델이 VAR(Vector Autoregressive)과 같은 아키텍처가 아닌, 이미지 디코딩을 위한 확산 기반 헤드와 자기회귀(AR)가 결합된 구조로 이루어져 있음을 시사합니다. 또한, 우리는 GPT-4o의 전체 아키텍처에 대한 완전한 추측을 제공합니다. 추가적으로, GPT-4o의 특정 한계와 이미지 생성에서 흔히 관찰되는 합성 아티팩트를 식별하고 시각화하기 위한 일련의 분석을 수행합니다. 또한, GPT-4o와 Gemini 2.0 Flash 간의 다중 라운드 이미지 편집에 대한 비교 연구를 제시하고, GPT-4o의 출력물, 특히 기존 이미지 포렌식 모델에 의한 탐지 가능성과 관련된 안전성 문제를 논의합니다. 우리의 작업이 미래 연구를 안내하고 재현성을 촉진하며, 이미지 생성 및 그 이상의 분야에서 혁신을 가속화하는 데 유용한 통찰력과 신뢰할 수 있는 벤치마크를 제공할 수 있기를 바랍니다. GPT-4o 평가에 사용된 코드와 데이터셋은 https://github.com/PicoTrex/GPT-ImgEval에서 확인할 수 있습니다.
본 논문은 동기화된 오디오-비디오 생성(JAVG)을 위해 설계된 새로운 Joint Audio-Video Diffusion Transformer(JavisDiT)를 소개합니다. 강력한 Diffusion Transformer(DiT) 아키텍처를 기반으로 구축된 JavisDiT는 개방형 사용자 프롬프트로부터 고품질의 오디오와 비디오 콘텐츠를 동시에 생성할 수 있습니다. 최적의 동기화를 보장하기 위해, 우리는 Hierarchical Spatial-Temporal Synchronized Prior(HiST-Sypo) Estimator를 통해 세밀한 시공간 정렬 메커니즘을 도입했습니다. 이 모듈은 전역적 및 세밀한 시공간 사전 정보를 추출하여 시각적 요소와 청각적 요소 간의 동기화를 유도합니다. 또한, 우리는 다양한 장면과 복잡한 실제 시나리오를 아우르는 10,140개의 고품질 텍스트 캡션이 달린 사운드 비디오로 구성된 새로운 벤치마크인 JavisBench를 제안합니다. 더 나아가, 우리는 실제 복잡한 콘텐츠에서 생성된 오디오-비디오 쌍 간의 동기화를 평가하기 위한 강력한 메트릭을 특별히 고안했습니다. 실험 결과는 JavisDiT가 고품질 생성과 정확한 동기화를 모두 보장함으로써 기존 방법들을 크게 능가하며, JAVG 작업에 대한 새로운 표준을 제시함을 보여줍니다. 우리의 코드, 모델, 그리고 데이터셋은 https://javisdit.github.io/에서 공개될 예정입니다.
강화 학습(Reinforcement Learning, RL)은 대규모 언어 모델(Large Language Models, LLMs)의 사후 학습(post-training)에서 널리 채택되고 있습니다. 최근, LLM의 추론 능력을 RL을 통해 강화하는 연구는 적절한 학습 방법이 효과적인 추론 시 확장성을 가능하게 할 수 있음을 시사합니다. RL의 주요 과제는 검증 가능한 질문이나 인공적인 규칙을 넘어 다양한 영역에서 LLM을 위한 정확한 보상 신호를 얻는 것입니다. 본 연구에서는 일반적인 질의에 대해 더 많은 추론 계산을 통해 보상 모델링(Reward Modeling, RM)을 개선하는 방법, 즉 일반적인 RM의 추론 시 확장성과 더 나아가 적절한 학습 방법을 통해 성능-계산 스케일링의 효과를 향상시키는 방법을 탐구합니다. RM 접근법으로는 다양한 입력 유형에 대한 유연성과 추론 시 스케일링의 잠재력을 가능하게 하는 점별 생성적 보상 모델링(Generative Reward Modeling, GRM)을 채택합니다. 학습 방법으로는 온라인 RL을 통해 GRM에서 확장 가능한 보상 생성 행동을 촉진하고, 적응적으로 원칙을 생성하며 정확한 비판을 생성하는 자기 원칙 비판 튜닝(Self-Principled Critique Tuning, SPCT)을 제안하여 DeepSeek-GRM 모델을 개발합니다. 또한, 효과적인 추론 시 스케일링을 위해 병렬 샘플링을 사용하여 계산 사용을 확장하고, 더 나은 스케일링 성능을 위한 투표 과정을 안내하는 메타 RM을 도입합니다. 실험적으로, SPCT가 GRM의 품질과 확장성을 크게 향상시키며, 다양한 RM 벤치마크에서 기존 방법과 모델을 능가하고 심각한 편향 없이 더 나은 성능을 달성할 수 있음을 보여줍니다. DeepSeek-GRM은 일부 작업에서 여전히 도전에 직면하지만, 일반적인 보상 시스템에 대한 미래의 노력으로 해결될 수 있을 것으로 믿습니다. 모델은 공개 및 오픈소스로 제공될 예정입니다.
가상 아바타와 인간-컴퓨터 상호작용에서 말하는 머리 합성(talking head synthesis)은 매우 중요합니다. 그러나 기존의 대부분의 방법들은 일반적으로 단일 주요 모달리티로부터의 제어만을 수용하는 데 제한되어 있어 실제 활용도가 떨어집니다. 이를 해결하기 위해, 우리는 말하는 머리 비디오 생성에 있어 다중 신호 제어와 단일 신호 제어를 모두 지원하는 end-to-end 비디오 확산 프레임워크인 ACTalker를 소개합니다. 다중 제어를 위해, 우리는 각각 별도의 구동 신호를 사용하여 특정 얼굴 영역을 제어하는 다중 분기로 구성된 병렬 맘바(mamba) 구조를 설계했습니다. 모든 분기에 걸쳐 게이트 메커니즘이 적용되어 비디오 생성에 유연한 제어를 제공합니다. 제어된 비디오가 시간적 및 공간적으로 자연스럽게 조율되도록 하기 위해, 우리는 각 분기에서 구동 신호가 특징 토큰(feature tokens)을 두 차원 모두에서 조작할 수 있게 하는 맘바 구조를 사용합니다. 또한, 우리는 각 구동 신호가 맘바 구조 내에서 해당 얼굴 영역을 독립적으로 제어할 수 있도록 하는 마스크 드롭(mask-drop) 전략을 도입하여 제어 충돌을 방지합니다. 실험 결과는 우리의 방법이 다양한 신호에 의해 구동되는 자연스러운 얼굴 비디오를 생성하며, 맘바 레이어가 여러 구동 모달리티를 충돌 없이 원활하게 통합한다는 것을 보여줍니다.
본 논문은 텍스트 프롬프트를 기반으로 임의의 시각적 요소(예: 캐릭터, 객체, 배경)를 합성 비디오로 조립하면서 각 요소의 참조 이미지와 엄격한 일관성을 유지할 수 있는 제어 가능한 비디오 생성 프레임워크인 SkyReels-A2를 소개합니다. 우리는 이러한 작업을 요소-투-비디오(E2V)라고 명명하며, 이 작업의 주요 과제는 각 참조 요소의 충실도를 유지하고, 장면의 일관된 구성을 보장하며, 자연스러운 출력을 달성하는 데 있습니다. 이를 해결하기 위해, 먼저 모델 학습을 위한 프롬프트-참조-비디오 삼중항을 구성하기 위한 포괄적인 데이터 파이프라인을 설계했습니다. 다음으로, 다중 요소 표현을 생성 과정에 주입하여 요소별 일관성과 전역적 일관성 및 텍스트 정렬을 균형 있게 조절하는 새로운 이미지-텍스트 결합 임베딩 모델을 제안합니다. 또한, 속도와 출력 안정성을 모두 최적화한 추론 파이프라인을 구현했습니다. 더불어, 체계적인 평가를 위해 신중하게 선별된 벤치마크인 A2 Bench를 소개합니다. 실험 결과, 우리의 프레임워크가 정밀한 요소 제어를 통해 다양하고 고품질의 비디오를 생성할 수 있음을 입증했습니다. SkyReels-A2는 E2V 생성을 위한 최초의 오픈소스 상용 등급 모델로, 고급 클로즈드소스 상용 모델에 비해 우수한 성능을 보입니다. 우리는 SkyReels-A2가 드라마 및 가상 이커머스와 같은 창의적인 응용 분야를 발전시키고, 제어 가능한 비디오 생성의 경계를 넓힐 것으로 기대합니다.
우리는 자연재해나 정치 선거와 같은 실제 사건에 대해 다양한 비디오들로부터 정보를 종합하여 위키피디아 스타일의 고수준 기사를 자동으로 생성하는 도전적인 과제를 제시한다. 비디오는 검색 증강 생성(Retrieval-Augmented Generation, RAG)을 위한 직관적인 소스이지만, 대부분의 현대 RAG 워크플로우는 텍스트에 치중되어 있으며, 비디오 기반 요약을 위한 기존 방법들은 고수준 사건 의미론보다는 저수준 장면 이해에 초점을 맞추고 있다. 이러한 격차를 해소하기 위해, 우리는 전문가가 작성한 기사와 기사의 주장을 뒷받침하는 밀도 높은 주석이 달린 비디오로 구성된 WikiVideo 벤치마크를 소개한다. 이는 비디오를 RAG 파이프라인에 통합하고 다중모달 소스에 기반한 심층적인 콘텐츠 생성이 가능하도록 한다. 또한, 우리는 다중 비디오로부터 기사를 생성하기 위한 새로운 상호작용 방식인 협업 기사 생성(Collaborative Article Generation, CAG)을 제안한다. CAG는 r1 스타일 추론 모델과 VideoLLM 간의 반복적 상호작용을 활용하여, 저수준 시각적 특징에 고정된 VideoLLM만으로는 불가능한 대상 사건에 대한 고수준 추론을 도출한다. 우리는 최첨단 VideoLLM과 CAG를 오라클 검색 및 RAG 설정에서 벤치마크한 결과, CAG가 대안 방법들을 지속적으로 능가하며, 향후 연구를 위한 흥미로운 방향을 제시함을 발견했다.
강화 학습(Reinforcement Learning, RL)은 최근 대규모 언어 모델의 추론 능력을 향상시키는 데 있어 강력한 잠재력을 보여주었으며, 현재 시각-언어 모델(Vision-Language Models, VLMs)로도 적극적으로 확장되고 있습니다. 그러나 기존의 VLM에서의 RL 적용은 종종 복잡하게 설계된 프레임워크에 의존하여 재현성과 접근성을 저해하며, 표준화된 평가 프로토콜이 부족해 결과를 비교하거나 학습 동역학을 해석하기 어렵습니다. 본 연구는 VLM에서의 RL을 위한 투명하고 처음부터 설계된 프레임워크를 소개하며, 여러 모델과 데이터셋에서 검증된 최소한의 기능적 4단계 파이프라인을 제공합니다. 또한, 학습 동역학과 반영적 행동을 평가하기 위한 표준화된 평가 체계를 제안합니다. 시각적 추론 작업에 대한 광범위한 실험을 통해 주요 경험적 발견을 도출했습니다: 응답 길이는 무작위 시드에 민감하며, 반영은 출력 길이와 상관관계가 있고, RL은 고품질 데이터가 있는 경우에도 지도 미세 조정(Supervised Fine-Tuning, SFT)보다 일반화에서 꾸준히 우수한 성능을 보입니다. 이러한 발견과 함께 제안된 프레임워크는 재현 가능한 기준선을 확립하고 RL 기반 VLM 연구에 대한 더 넓은 참여를 지원하는 것을 목표로 합니다.
기존의 음성 언어 모델(SLM) 스케일링 분석은 암울한 전망을 그려냅니다. 이 분석에 따르면, SLM은 텍스트에 비해 훨씬 더 많은 컴퓨팅 자원과 데이터를 필요로 하며, 이로 인해 고품질 SLM을 학습시키는 것이 실현 가능한지에 대한 의문이 제기되고 있습니다. 그러나 현대의 SLM은 종종 사전 학습된 텍스트 언어 모델(TextLM)에서 초기화되며, 음성-텍스트 인터리빙을 통해 지식 전달을 가능하게 합니다. 이는 다음과 같은 질문을 제기합니다: 인터리빙된 SLM이 텍스트 없는 SLM보다 더 효율적으로 스케일링되는가? 본 논문에서 우리는 이 질문에 확실히 '그렇다'고 답합니다! 우리는 인터리빙된 SLM의 스케일링 분석을 수행하기 위해 수십 개의 모델을 학습시키고 스케일링 경향을 분석했습니다. 이 설정 하에서 SLM은 컴퓨팅 자원에 대해 더 효율적으로 스케일링되는 것을 확인했습니다. 또한, 우리의 결과는 스케일링 역학이 텍스트 없는 SLM과 크게 다르며, 모델 크기를 늘리는 데 더 많은 컴퓨팅 예산을 할당해야 함을 시사합니다. 우리는 또한 합성 데이터와 TextLM 모델 패밀리가 이 잠재력을 발휘하는 데 어떤 역할을 하는지 연구했습니다. 결과에 따르면, 우리의 스케일업된 모델은 다른 접근 방식보다 더 적은 컴퓨팅 자원과 데이터를 사용하면서도 음성 의미론적 지표에서 선두 모델과 비슷한 성능을 달성했습니다. 우리는 모델, 샘플, 데이터를 오픈소스로 공개합니다 - https://pages.cs.huji.ac.il/adiyoss-lab/sims.
멀티모달 대형 언어 모델(MLLMs)은 그 거대한 규모와 방대한 시각 토큰 수로 인해 높은 계산 비용을 겪고 있습니다. 본 논문에서는 계층별 중복성을 조사하기 위해 새로운 지표인 계층 기여도(Layer Contribution, LC)를 도입합니다. LC는 특정 계층의 변환이 시각 및 텍스트 토큰에 미치는 영향을 각각 정량화합니다. LC 계산은 해당 계층의 변환을 제거했을 때 모델 출력에서 발생하는 차이를 측정하는 것을 포함합니다. 우리의 파일럿 실험은 MLLMs의 많은 계층들이 시각 토큰 처리 과정에서 최소한의 기여만을 보인다는 것을 밝혀냈습니다. 이러한 관찰에 기반하여, 우리는 LC를 활용하여 비효율적인 계층을 식별하고 이러한 계층에서 시각 토큰 업데이트를 동결하는 훈련이 필요 없는 방법인 ShortV를 제안합니다. 실험 결과, ShortV는 MLLM 계층의 약 60%에서 시각 토큰 업데이트를 동결함으로써 시각 토큰 업데이트와 관련된 계산 비용을 극적으로 줄일 수 있음을 보여줍니다. 예를 들어, LLaVA-NeXT-13B에서 FLOPs를 50% 감소시키면서도 우수한 성능을 유지합니다. 코드는 https://github.com/icip-cas/ShortV에서 공개될 예정입니다.
디퓨전 모델은 주로 작업별 정보를 인코딩하는 노이즈 예측과 조정 가능한 스케일링을 가능하게 하는 분류기 없는 가이던스를 통해 이미지 작업에서 인상적인 제어 능력을 제공합니다. 이 스케일링 메커니즘은 미세한 의미 조작을 위한 잠재력을 아직 충분히 탐구되지 않은 "스케일링 공간"을 암묵적으로 정의합니다. 우리는 이 공간을 탐구하며, 조건부/무조건부 노이즈 예측 간의 차이가 핵심 의미 정보를 담고 있는 역전 기반 편집에서 시작합니다. 우리의 핵심 기여는 노이즈 예측에 대한 푸리에 분석에서 비롯되었으며, 이 분석을 통해 저주파 및 고주파 성분이 디퓨전 과정에서 다르게 진화한다는 사실을 발견했습니다. 이러한 통찰을 바탕으로, 우리는 푸리에 도메인에서 서로 다른 주파수 대역에 독립적으로 가이던스 스케일링을 적용하는 간단한 방법인 FreSca를 소개합니다. FreSca는 재학습 없이도 기존 이미지 편집 방법을 향상시키는 것으로 입증되었습니다. 더욱 흥미롭게도, 이 방법의 효과는 깊이 추정과 같은 이미지 이해 작업으로까지 확장되어 여러 데이터셋에서 양적 성능 향상을 이끌어냅니다.
모델 선택은 시계열 예측에서 중요한 단계로, 전통적으로 다양한 데이터셋에 걸친 광범위한 성능 평가가 필요했습니다. 메타러닝 접근법은 이 과정을 자동화하려 하지만, 일반적으로 사전에 구축된 성능 행렬에 의존하며, 이를 구축하는 데 많은 비용이 듭니다. 본 연구에서는 대규모 언어 모델(LLM)을 경량화된 모델 선택 대안으로 활용하는 방법을 제안합니다. 우리의 방법은 LLM의 내재된 지식과 추론 능력을 활용하여 명시적인 성능 행렬의 필요성을 제거합니다. LLaMA, GPT, Gemini를 사용한 광범위한 실험을 통해, 우리의 접근법이 전통적인 메타러닝 기법과 휴리스틱 베이스라인을 능가하면서도 계산 오버헤드를 크게 줄일 수 있음을 입증했습니다. 이러한 결과는 시계열 예측을 위한 효율적인 모델 선택에서 LLM의 잠재력을 강조합니다.
추론 기반 대형 언어 모델의 등장 이후, 많은 연구자들이 추론 능력을 학생 모델로 증류하는 데서 큰 성공을 거두었습니다. 이러한 기술은 코딩 작업에서 추론과 표준 LLM 간의 격차를 크게 줄였습니다. 그럼에도 불구하고, 추론 모델 증류에 관한 많은 진전은 독점 데이터셋 뒤에 잠겨 있거나 데이터 큐레이션, 필터링 및 후속 훈련에 대한 세부 사항이 부족한 상태입니다. 이를 해결하기 위해, 우리는 다양한 크기의 모델에서 최첨단 코딩 능력 결과를 달성하기 위해 사용할 우수한 지도 미세 조정(SFT) 데이터셋을 구축했습니다. 우리의 증류된 모델은 SFT만을 사용하여 LiveCodeBench에서 61.8%, CodeContests에서 24.6%를 달성하며, 강화 학습으로 훈련된 대안들을 능가했습니다. 그런 다음, 우리 데이터셋 구축에 사용된 데이터 소스, 코드 실행 필터링의 영향, 그리고 명령어/해결책 다양성의 중요성을 분석했습니다. 우리는 실행 필터링이 벤치마크 정확도에 부정적인 영향을 미쳤음을 관찰하여, 해결책의 정확성보다 명령어 다양성을 우선시하기로 결정했습니다. 마지막으로, 이러한 모델이 활용하는 토큰 효율성과 추론 패턴도 분석했습니다. 우리는 이러한 데이터셋과 증류된 모델을 커뮤니티에 오픈소스로 공개할 예정입니다.
대규모 언어 모델(LLMs)의 최근 발전은 프로세스 보상 모델(PRMs)을 검증자로 활용하여 LLMs의 성능을 향상시키는 것이 유망함을 보여주었습니다. 그러나 현재의 PRMs는 세 가지 주요 과제에 직면해 있습니다: (1) 제한된 프로세스 감독 및 일반화 능력, (2) LLMs의 생성 능력을 활용하지 않은 스칼라 값 예측에 대한 의존성, (3) PRMs의 테스트 시점 계산을 확장할 수 없는 점. 본 연구에서는 각 추론 단계에 대한 판단을 제공하기 전에 명시적인 사고의 연쇄(CoT) 추론과 코드 검증을 수행하는 생성적 프로세스 보상 모델인 GenPRM을 소개합니다. 고품질의 프로세스 감독 레이블과 근거 데이터를 얻기 위해, 우리는 상대적 진행도 추정(RPE)과 코드 검증을 통합한 근거 합성 프레임워크를 제안합니다. ProcessBench 및 여러 수학적 추론 과제에서의 실험 결과는 GenPRM이 MATH 데이터셋의 단 23K 학습 데이터만으로도 기존 PRMs를 크게 능가함을 보여줍니다. 테스트 시점 확장을 통해, 1.5B GenPRM은 GPT-4o를 능가하고, 7B GenPRM은 ProcessBench에서 Qwen2.5-Math-PRM-72B를 초과합니다. 또한, GenPRM은 정책 모델 개선을 위한 비평 모델로서의 강력한 능력을 보여줍니다. 이 연구는 PRMs와 LLMs의 비평 모델 간의 격차를 해소하는 새로운 프로세스 감독 패러다임을 확립합니다. 우리의 코드, 모델, 데이터는 https://ryanliu112.github.io/GenPRM에서 공개될 예정입니다.
우리는 모델-프리 강화 학습 에이전트가 계획을 학습할 수 있다는 첫 번째 기계적 증거를 제시한다. 이는 Sokoban(계획 연구를 위해 일반적으로 사용되는 벤치마크)에서 모델-프리 에이전트에 개념 기반 해석 가능성 방법론을 적용함으로써 달성되었다. 구체적으로, 우리는 Guez 등(2019)이 소개한 일반적인 모델-프리 에이전트인 DRC가 학습된 개념 표현을 사용하여 환경에 대한 행동의 장기적 영향을 예측하고 행동 선택에 영향을 미치는 내부 계획을 수립한다는 것을 보여준다. 우리의 방법론은 다음을 포함한다: (1) 계획 관련 개념 탐색, (2) 에이전트의 표현 내에서 계획 형성 조사, (3) 발견된 계획(에이전트의 표현 내)이 에이전트의 행동에 인과적 영향을 미치는지 중재를 통해 검증. 또한, 이러한 계획의 출현은 계획과 유사한 특성, 즉 추가 테스트 시간 계산으로부터 이익을 얻는 능력의 출현과 일치한다는 것을 보여준다. 마지막으로, 우리는 에이전트가 학습한 계획 알고리즘에 대한 질적 분석을 수행하고 병렬화된 양방향 탐색과 강한 유사성을 발견한다. 우리의 연구 결과는 최근 LLM(대형 언어 모델)에서 RL(강화 학습)을 통해 나타나는 계획 및 추론 능력의 추세를 고려할 때, 에이전트의 계획 행동을 뒷받침하는 내부 메커니즘에 대한 이해를 진전시킨다.
과학적 발견은 첨단 로봇공학과 인공지능을 통해 빠르게 발전할 준비가 되어 있습니다. 현재의 과학적 실천은 수동 실험이 시간과 자원을 많이 소모하며, 다학제적 연구는 개별 연구자의 전문성 경계를 넘어 지식 통합을 요구함으로써 상당한 한계에 직면해 있습니다. 여기서 우리는 에이전트 AI와 구체화된 로봇공학을 결합하여 전체 연구 생명주기를 자동화하는 자율적 일반과학자(AGS) 개념을 구상합니다. 이 시스템은 물리적 및 가상 환경과 동적으로 상호작용하면서 다양한 과학 분야 간의 지식 통합을 촉진할 수 있습니다. 문헌 검토, 가설 생성, 실험, 논문 작성에 이르는 모든 연구 단계에 이러한 기술을 배치하고 내부 성찰과 외부 피드백을 통합함으로써, 이 시스템은 과학적 발견에 필요한 시간과 자원을 크게 줄이는 것을 목표로 합니다. 가상 AI 과학자에서 다재다능한 일반 AI 기반 로봇 과학자로의 진화를 바탕으로, AGS는 획기적인 잠재력을 약속합니다. 이러한 자율 시스템이 연구 과정에 점점 더 통합됨에 따라, 우리는 과학적 발견이 이러한 자율 시스템의 수와 능력에 의해 형성될 수 있는 새로운 스케일링 법칙을 따를 수 있으며, 지식이 생성되고 진화하는 방식에 대한 새로운 관점을 제공할 수 있다고 가설을 세웁니다. 극한 환경에 적응할 수 있는 구체화된 로봇의 적응성과 축적되는 과학적 지식의 플라이휠 효과는 물리적 및 지적 경계를 지속적으로 넘어설 수 있는 가능성을 가지고 있습니다.
3D Gaussian Splatting(3DGS)은 우수한 품질과 렌더링 속도를 보여주지만, 수백만 개의 3D 가우시안과 상당한 저장 및 전송 비용이 발생합니다. 최근의 3DGS 압축 방법은 주로 Scaffold-GS를 압축하는 데 집중하여 인상적인 성능을 달성했지만, 추가적인 복셀 구조와 복잡한 인코딩 및 양자화 전략이 필요했습니다. 본 논문에서는 복셀 구조와 복잡한 양자화 전략 없이 원본 3DGS를 간결한 표현으로 압축하는 새로운 방법인 NeuralGS를 개발하고자 합니다. 우리는 NeRF와 같은 신경 필드가 Multi-Layer Perceptron(MLP) 신경망을 사용하여 복잡한 3D 장면을 단 몇 메가바이트로 표현할 수 있다는 점에 주목했습니다. 따라서 NeuralGS는 신경 필드 표현을 효과적으로 채택하여 3D 가우시안의 속성을 MLP로 인코딩하며, 대규모 장면에서도 작은 저장 공간만을 요구합니다. 이를 위해 클러스터링 전략을 도입하고, 가우시안의 중요도 점수를 가중치로 사용하여 각 클러스터에 대해 서로 다른 소형 MLP로 가우시안을 피팅합니다. 여러 데이터셋에서 실험을 진행한 결과, 시각적 품질을 저하시키지 않으면서 평균 45배의 모델 크기 감소를 달성했습니다. 우리의 방법은 원본 3DGS에 대한 압축 성능이 전용 Scaffold-GS 기반 압축 방법과 비슷한 수준으로, 신경 필드를 사용하여 원본 3DGS를 직접 압축하는 데 큰 잠재력이 있음을 보여줍니다.
스파스 오토인코더(SAE)는 최근 대규모 언어 모델(LLM)의 해석 가능성과 조정 가능성을 향상시키는 것으로 입증되었습니다. 본 연구에서는 SAE의 적용 범위를 CLIP과 같은 비전-언어 모델(VLM)로 확장하고, 비전 표현에서 단일 의미성을 평가하기 위한 포괄적인 프레임워크를 소개합니다. 실험 결과, VLM에 대해 학습된 SAE는 개별 뉴런의 단일 의미성을 크게 향상시키는 동시에 전문가가 정의한 구조(예: iNaturalist 분류 체계)와 잘 부합하는 계층적 표현을 보여주었습니다. 특히, CLIP 비전 인코더에 SAE를 적용하여 개입하면, 기본 모델을 수정하지 않고도 다중모달 LLM(예: LLaVA)의 출력을 직접 조정할 수 있음을 입증했습니다. 이러한 연구 결과는 SAE가 VLM의 해석 가능성과 제어력을 모두 강화하는 비지도 접근법으로서의 실용성과 효용성을 강조합니다.
자동 음성 인식 시스템은 Whisper와 같은 다국어 및 다중 작업 모델의 통합으로 인해 의심할 여지 없이 발전해 왔으며, 이는 광범위한 언어에 걸쳐 음성을 이해하고 처리하는 유망한 능력을 보여주었습니다. 그러나 이러한 모델들은 소수 언어의 언어적 차이를 다루는 데 있어서 종종 부족함을 보입니다. 본 연구는 이러한 격차를 해소하기 위해 전통적이고 새로운 언어 모델을 미세 조정된 Whisper 모델과 통합하여 덜 연구된 언어에서의 성능을 향상시키는 방법을 제시합니다. 여러 데이터셋에 걸친 엄격한 미세 조정과 평가를 통해, 특히 저자원 시나리오에서 단어 오류율의 상당한 개선을 입증합니다. 우리의 접근 방식은 Whisper가 사전 학습한 방대한 데이터를 활용할 뿐만 아니라, 언어 모델을 통합함으로써 언어적 적응성을 보완합니다. 통계적 언어 모델을 사용하여 내부 분포 데이터셋에서 최대 51%, 외부 분포 문장에서 최대 34%의 개선을 얻었으며, 대형 언어 모델은 다양한 언어적 맥락에서 중간이지만 꾸준히 견고한 개선을 제공했습니다. 연구 결과는 통합이 모든 모델 크기에 안정적으로 이점을 제공하지만, 개선의 정도는 다양하며, 이는 최적화된 언어 모델 매개변수의 중요성을 강조합니다. 마지막으로, 트랜스포머 기반 ASR 모델을 사용하여 결과를 보고할 때 적절한 평가 매개변수를 선택하는 것의 중요성을 강조합니다. 요약하면, 이 연구는 언어적 지식을 풍부하게 함으로써 더 포괄적인 ASR 기술의 길을 열어, 다양한 언어에서 더 나은 성능을 발휘할 수 있도록 합니다. 본 연구의 추가 구현 세부 사항에 대해서는 기술 문서와 소스 코드가 http://www.github.com/hitz-zentroa/whisper-lm에서 제공됩니다.
작업 설명과 아키텍처 사양에 따라 신경망 매개변수를 생성하는 방법을 학습하는 것은 모델의 적응성과 전이 학습을 발전시키는 데 핵심적입니다. 기존 방법론, 특히 확산 모델(diffusion models)에 기반한 방법들은 대규모 아키텍처로의 확장성 부족, 다양한 네트워크 깊이를 처리하는 데 있어 경직성, 그리고 계층 간 일관성을 해치는 분리된 매개변수 생성 등의 한계를 가지고 있습니다. 본 연구에서는 IGPG(Instruction Guided Parameter Generation)를 제안합니다. IGPG는 다양한 작업과 아키텍처에 걸쳐 매개변수 합성을 통합하는 자기회귀(autoregressive) 프레임워크입니다. IGPG는 VQ-VAE와 자기회귀 모델을 활용하여 작업 지시, 데이터셋, 아키텍처 세부 사항에 따라 신경망 매개변수를 생성합니다. 신경망 가중치 토큰을 자기회귀적으로 생성함으로써, IGPG는 계층 간 일관성을 보장하고 모델 및 데이터셋 간 효율적인 적응을 가능하게 합니다. 토큰 수준에서 작동하는 IGPG는 다양한 사전 학습된 모델로부터 집계된 복잡한 매개변수 분포를 효과적으로 포착합니다. 여러 비전 데이터셋에서의 광범위한 실험을 통해 IGPG가 다양한 사전 학습된 모델을 단일의 유연한 생성 프레임워크로 통합함을 입증했습니다. 합성된 매개변수는 특히 대규모 아키텍처에 적용할 때 확장성과 효율성 측면에서 최신 방법론들과 비교하여 경쟁력 있거나 우수한 성능을 달성했습니다. 이러한 결과는 IGPG가 사전 학습된 가중치 검색, 모델 선택, 그리고 작업별 빠른 미세 조정을 위한 강력한 도구로서의 잠재력을 강조합니다.
비지도 범위 분할(Unsupervised panoptic segmentation)은 수동으로 주석이 달린 데이터에 대한 학습 없이 이미지를 의미론적으로 의미 있는 영역과 구별되는 객체 인스턴스로 분할하는 것을 목표로 합니다. 기존의 비지도 범위 장면 이해 연구와 달리, 우리는 객체 중심의 학습 데이터 필요성을 제거함으로써 복잡한 장면의 비지도 이해를 가능하게 합니다. 이를 위해, 우리는 장면 중심 이미지에 직접 학습하는 최초의 비지도 범위 방법을 제시합니다. 특히, 시각적 표현, 깊이, 그리고 움직임 단서를 결합하여 복잡한 장면 중심 데이터에서 고해상도 범위 가짜 레이블을 얻는 접근 방식을 제안합니다. 가짜 레이블 학습과 범위 자기 학습 전략을 모두 활용함으로써, 인간의 주석 없이도 복잡한 장면의 범위 분할을 정확하게 예측하는 새로운 접근 방식을 제안합니다. 우리의 접근 방식은 범위 품질을 크게 개선하며, 예를 들어 Cityscapes 데이터셋에서 최신 비지도 범위 분할 기술을 PQ 기준으로 9.4% 포인트 앞섭니다.