번역이 포함된 일일 선별된 AI 연구 논문
AI 에이전트의 부상은 자율적 도구 사용과 환경 상호작용으로 인한 복잡한 안전 및 보안 과제를 제기합니다. 기존 가드레일 모델은 에이전트 위험 인식과 위험 진단의 투명성이 부족합니다. 복잡하고 다양한 위험 행위를 포괄하는 에이전트 가드레일을 도입하기 위해, 우리는 먼저 위험의 근원(where), 실패 모드(how), 결과(what)에 따라 에이전트 위험을 직교적으로 분류하는 통합 3차원 분류 체계를 제안합니다. 이 체계적이고 계층적인 분류 체계를 바탕으로, 우리는 새로운 세분화된 에이전트 안전 벤치마크(ATBench)와 에이전트 안전 및 보안을 위한 진단형 가드레일 프레임워크(AgentDoG)를 소개합니다. AgentDoG는 에이전트 행동 궤적 전반에 걸쳐 세분화되고 맥락적인 모니터링을 제공합니다. 더욱 중요하게, AgentDoG는 안전하지 않은 행동과 겉보기에 안전하지만 비합리적인 행동의 근본 원인을 진단하여, 이진 분류 레이블을 넘어 소스 추적과 투명성을 제공함으로써 효과적인 에이전트 정렬을 용이하게 합니다. AgentDoG 변형 모델은 Qwen과 Llama 모델 패밀리에서 3가지 크기(4B, 7B, 8B 매개변수)로 이용 가능합니다. 광범위한 실험 결과는 AgentDoG가 다양하고 복잡한 상호작용 시나리오에서 에이전트 안전 조정 분야 최첨단 성능을 달성함을 입증합니다. 모든 모델과 데이터셋은 공개되었습니다.
인간은 즉각적인 능력을 넘어서는 문제에 직면했을 때 도구에 의존하며, 이는 다중모달 대규모 언어 모델(MLLMs)의 시각적 추론 능력 향상을 위한 유망한 패러다임을 제공합니다. 따라서 효과적인 추론은 새로운 도구나 새로운 작업을 마주하더라도 어떤 도구를 사용할지, 언제 호출할지, 여러 단계에 걸어 어떻게 조합할지를 아는 데 달려 있습니다. 우리는 AdaReasoner를 소개합니다. 이는 다중모달 모델 패밀리로, 도구 사용을 도구 특정적이거나 명시적으로 지도된 행동이 아닌 일반적인 추론 기술로 학습합니다. AdaReasoner는 (i) 모델이 장기적이고 다단계의 도구 상호작용에 노출되도록 하는 확장 가능한 데이터 큐레이션 파이프라인, (ii) 최종 작업 성공을 기반으로 도구 선택 및 순서화를 최적화하는 강화 학습 알고리즘인 Tool-GRPO, 그리고 (iii) 도구 사용을 동적으로 조절하는 적응형 학습 메커니즘을 통해 구현됩니다. 이러한 구성 요소들이 함께 작동하여 모델은 작업 맥락과 중간 결과로부터 도구의 유용성을 추론하고, 여러 도구의 조정 및 보이지 않는 도구에 대한 일반화를 가능하게 합니다. 실험적으로 AdaReasoner는 강력한 도구 적응 및 일반화 행동을 보입니다: 명시적으로 그러하도록 훈련받은 적음에도 불구하고 유익한 도구를 자율적으로 채택하고, 관련 없는 도구는 억제하며, 작업 요구에 따라 도구 사용 빈도를 조정합니다. 이러한 능력들은 까다로운 벤치마크에서 최첨단 성능으로 이어져, 7B 기본 모델의 평균 성능을 +24.9% 향상시키고 VSP 및 Jigsaw를 포함한 여러 작업에서 GPT-5와 같은 강력한 독점 시스템을 능가합니다.
로봇 매니픽레이션 분야에서 큰 잠재력을 지닌 능력 있는 VLA(Vision-Language-Action) 파운데이션 모델은 비용 효율성(예: 적응에 필요한 데이터 및 GPU 시간)을 보장하면서 작업과 플랫폼 간에 충실하게 일반화될 것으로 기대됩니다. 이를 위해 우리는 9가지 대중적인 듀얼 암 로봇 구성에서 수집한 약 20,000시간의 실세계 데이터로 LingBot-VLA를 개발했습니다. 각각 100개의 작업을 수행하고 작업당 130회의 사후 훈련 에피소드를 가진 3개의 로봇 플랫폼에 대한 체계적인 평가를 통해, 우리 모델은 경쟁 모델 대비 뚜렷한 우월성을 달성하며 강력한 성능과 넓은 일반화 가능성을 입증했습니다. 또한 8-GPU 훈련 설정으로 GPU당 초당 261개의 샘플 처리량을 제공하는 효율적인 코드베이스를 구축했으며, 이는 기존 VLA 중심 코드베이스 대비 (의존하는 VLM 기본 모델에 따라) 1.5~2.8배의 속도 향상을 나타냅니다. 위와 같은 특징들은 우리 모델이 실세계 배포에 매우 적합하도록 보장합니다. 로봇 학습 분야의 발전을 위해 우리는 코드, 기본 모델 및 벤치마크 데이터에 대한 오픈 액세스를 제공하며, 더 도전적인 작업의 가능성을 열고 건전한 평가 기준을 정립하는 데 주력하고자 합니다.
인간은 내부 세계 모델을 구축하고 그 모델 내 개념들을 조작하며 추론을 수행합니다. 최근 인공지능, 특히 사고 연쇄(CoT) 추론의 발전은 이러한 인간의 인지 능력을 모방하는데, 여기서 세계 모델은 대규모 언어 모델 내에 내재된 것으로 여겨집니다. 현재 시스템은 주로 언어적 추론에 의존하여 수학 및 프로그래밍과 같은 형식적이고 추상적인 영역에서 전문가 수준의 성능을 달성했습니다. 그러나 더 풍부한 표상과 사전 지식이 필요한 물리적, 공간적 지능과 같은 영역에서는 여전히 인간에 크게 뒤처집니다. 언어 및 시각 생성을 모두 가능하게 하는 통합 다중모달 모델(UMM)의 등장은 이처럼 상호 보완적인 다중모달 경로에 기반한 인간 유사 추론에 대한 관심을 불러일으켰으나, 그 실질적 이점은 아직 명확하지 않습니다. 세계 모델 관점에서 본 논문은 시각 생성이 언제, 어떻게 추론에 이점을 제공하는지에 대한 첫 번째 원칙적 연구를 제시합니다. 우리의 핵심 주장은 시각 우위 가설입니다. 즉, 특히 물리 세계에 기반한 특정 과업의 경우 시각 생성이 세계 모델로서의 역할을 더 자연스럽게 수행하는 반면, 순수 언어적 세계 모델은 표상의 한계나 불충분한 사전 지식에서 비롯된 병목 현상을 겪는다는 것입니다. 이론적으로는 내부 세계 모델링을 CoT 추론의 핵심 구성 요소로 형식화하고 다양한 형태의 세계 모델 간 차이점을 분석합니다. 실증적으로는 시각-언어 간섭 CoT 추론이 필요한 과업들을 규명하고 새로운 평가 도구인 VisWorld-Eval을 구축했습니다. 최첨단 UMM을 이용한 통제 실험 결과, 시각적 세계 모델링이 유리한 과업에서는 간섭 CoT가 순수 언어적 CoT를 크게 능가하는 반면, 그렇지 않은 과업에서는 뚜렷한 이점을 제공하지 않음을 확인했습니다. 종합적으로, 본 연구는 더 강력하고 인간적인 다중모달 AI를 위한 다중모달 세계 모델링의 잠재력을 규명합니다.
인터넷 오디오-비주얼 클립은 시간에 따라 변화하는 소리와 동작을 통해 의미를 전달하며, 이는 텍스트만으로는 표현할 수 없는 영역을 포괄합니다. AI 모델이 인간의 문화적 맥락에서 이러한 신호를 이해할 수 있는지 검증하기 위해 우리는 AVMeme Exam을 소개합니다. 이는 1,000개 이상의 대표적인 인터넷 사운드 및 비디오(음성, 노래, 음악, 음향 효과 포함)로 구성된 인간이 직접 선별한 벤치마크입니다. 각 밈은 표면적 내용부터 맥락과 감정, 사용법 및 세계 지식에 이르기까지 이해 수준을 평가하는 고유한 질문-답변 쌍과 함께 원본 연도, 대본, 요약, 민감도 등의 메타데이터와 짝을 이룹니다. 우리는 이 벤치마크를 사용하여 최첨단 멀티모달 대규모 언어 모델(MLLM)과 인간 참가자를 체계적으로 평가했습니다. 그 결과 일관된 한계가 드러났습니다: 현재 모델들은 텍스트가 없는 음악과 음향 효과에서 성능이 낮았으며, 표면적 내용에 비해 맥락적·문화적 사고에 어려움을 겪었습니다. 이러한 발견은 인간 중심 멀티모달 지능의 핵심 격차를 부각시키며, 단순히 보고 듣는 것을 넘어 맥락적·문화적으로 인지할 수 있는 모델의 필요성을 촉구합니다. 프로젝트 페이지: avmemeexam.github.io/public
비전-언어 모델(VLM)의 상당한 발전에도 불구하고, 현재 아키텍처는 종종 세밀한 시각 정보를 유지하는 데 한계를 보여 과도하게 추상적인 다중模态 이해로 이어집니다. 우리는 이러한 결함을 기존 VLM에 내재된 최적화되지 않은 학습 패러다임, 즉 시각 신호를 단순히 수동적인 조건부 입력으로 개념화하여 지배적인 텍스트 최적화 편향을 나타내는 것으로 귀결합니다. 이를 완화하기 위해 우리는 최적화 목표를 "시각을 입력으로"에서 "시각을 목표로"로 근본적으로 전환하는 비전-언어 통합 자기회귀 예측(VLUAS) 패러다임을 활용하는 Youtu-VL 프레임워크를 소개합니다. 시각 토큰을 예측 스트림에 직접 통합함으로써 Youtu-VL은 시각적 세부 사항과 언어적 내용에 통합된 자기회귀 예측을 적용합니다. 더 나아가 이 패러다임을 시각 중심 작업으로 확장하여 표준 VLM이 작업별 추가 장치 없이도 시각 중심 작업을 수행할 수 있도록 합니다. 광범위한 실증 평가를 통해 Youtu-VL이 일반 다중模态 작업과 시각 중심 작업 모두에서 경쟁력 있는 성능을 달성하여 포괄적인 일반 목적 시각 에이전트 개발을 위한 견고한 기반을 마련함을 입증합니다.
대규모 언어 모델(LLM)의 발전은 생성형 에이전트 시뮬레이션(예: AI Town)을 통해 '동적인 세계'를 구축하게 하여 엔터테인먼트와 연구 분야에 막대한 가치를 지닙니다. 그러나 비전문가, 특히 프로그래밍 기술이 없는 사용자에게는 시각화 가능한 환경을 직접 맞춤 제작하는 것이 쉽지 않습니다. 본 논문에서는 사용자의 텍스트 설명을 통해 실행 가능하고 시각화된 AI Town을 생성하는 에이전트 기반 세계 창조 프레임워크인 World Craft를 소개합니다. 이는 World Scaffold와 World Guild 두 가지 주요 모듈로 구성됩니다. World Scaffold는 상호작용 가능한 게임 장면을 개발하기 위한 구조적이고 간결한 표준화 체계로, LLM이 실행 가능한 AI Town 스타일 환경을 맞춤 제작할 수 있는 효율적인 발판을 제공합니다. World Guild는 사용자의 대략적인 설명으로부터 의도를 점진적으로 분석하고, World Scaffold에 필요한 구조화된 내용(예: 환경 레이아웃 및 에셋)을 합성하는 다중 에이전트 프레임워크입니다. 더 나아가, 레이아웃 생성의 안정성과 제어 가능성을 높이기 위해 역공학을 통해 고품질 오류 수정 데이터셋을 구축하고, 추가 분석을 위한 다차원 평가 지표를 제시합니다. 광범위한 실험을 통해 본 프레임워크가 장면 구성과 서술 의도 전달 측면에서 기존 상용 코드 에이전트(Cursor 및 Antigravity) 및 LLM(Qwen3 및 Gemini-3-Pro)을 크게 능가함을 입증하여, 환경 창조의 민주화를 위한 확장 가능한 솔루션을 제공합니다.
장문 맥락 대규모 언어 모델(LLM)의 급속한 확장은 검색 증강 생성(RAG)의 필요성에 대한 논쟁을 다시 불러일으켰습니다. 그러나 실증적 연구 결과에 따르면, 장문 맥락 추론에는 여전히 '중간 정보 소실' 현상, 높은 계산 비용, 다중 문서 추론의 낮은 확장성 등의 한계가 존재합니다. 반면, 전통적인 RAG 시스템은 효율적이지만 평편한 청크 수준 검색에 제한되어 의미론적 잡음을 유발하고 구조화된 교차 문서 통합을 지원하지 못합니다. 본 연구에서는 LLM을 지식 구성 및 검색 과정 모두에 통합하는 Forest 기반 적응형 이중 경로 LLM 향상 검색 프레임워크인 FABLE을 제안합니다. FABLE은 다중 세분성 의미 구조를 가진 LLM 향상 계층적 숲 인덱스를 구축한 후, LLM 유도 계층적 탐색과 구조 인식 전파를 결합한 이중 경로 전략을 통해 세밀한 증거 획득을 수행하며, 명시적 예산 제어를 통해 적응형 효율성 균형을 달성합니다. 폭넓은 실험 결과, FABLE은 SOTA RAG 방법들을 일관되게 능가하며 최대 94%의 토큰 감소로 전체 맥락 LLM 추론과 비슷한 정확도를 달성함으로써, 장문 맥락 LLM이 구조화된 검색의 필요성을 대체하기보다 오히려 증폭시킨다는 점을 보여줍니다.
최근 몇 년간 대규모 언어 모델과 관련된 안전 위험이 점차 두드러지면서 유해하고 위험한 콘텐츠 생성을 완화해야 할 필요성이 시급히 부각되고 있습니다. LLM 안전성 정렬의 주류 패러다임은 일반적으로 공격자(적대적 프롬프트 생성), 방어자(안전성 방어), 평가자(응답 평가)라는 세 가지 역할이 협력하는 프레임워크를 채택합니다. 본 논문에서는 세 역할 간의 반복적이고 상호 향상되는 협력을 거의 제로에 가까운 수동 주석 작업으로 가능하게 하는 TriPlay-RL이라는 폐쇄형 강화 학습 프레임워크를 제안합니다. 실험 결과, 공격자는 적대적 효율성에서 20%~50% 향상을 달성하면서도 높은 출력 다양성을 유지했으며, 방어자는 일반적인 추론 능력의 저하 없이 안전성 성능에서 10%~30% 이득을 얻었습니다. 또한 평가자는 반복을 통해 세분화된 판단 능력을 지속적으로 개선하여 안전하지 않은 응답, 단순한 거절, 유용한 지침을 정확히 구분했습니다. 전반적으로, 본 프레임워크는 통합된 학습 루프 내에서 지속적인 공동 진화를 가능하게 하는 효율적이고 확장 가능한 LLM 안전성 정렬 패러다임을 구축합니다.
대규모 언어 모델(LLM)의 규모 확장에 한계가 도달하고 있습니다. 모델의 폭을 넓히는 것은 수익 체감을 가져오며, 컨텍스트 길이를 연장하더라도 근본적인 표현력은 향상되지 않습니다. 이와 대조적으로, 깊이 확장은 이론적으로 더 우수한 표현력을 제공하지만, 현재의 트랜스포머 아키텍처는 극단적인 깊이에서 안정적으로 학습하는 데 어려움을 겪습니다. 본 연구는 현대 LLM에서 Pre-LN으로 대체된 이유인 대규모 학습 시 불안정성을 보였던 Post-LayerNorm(Post-LN) 구성을 재검토합니다. 우리는 Post-LN의 핵심 실패 모드가 ResNet 스타일의 잔차 경로에서 비롯되며, 이는 심층 네트워크에서 그래디언트 소실을 유발함을 보여줍니다. 우리는 이 잔차 경로를 Highway 스타일 연결로 대체하는 Post-LN 트랜스포머인 Keel을 제시합니다. 이 수정을 통해 잔차 분기를 통한 그래디언트 흐름이 유지되어 상위 계층에서 하위 계층으로의 신호 소실을 방지합니다. 기존 방법과 달리 Keel은 특수한 초기화나 복잡한 최적화 기법 없이도 극단적인 깊이에서 안정적인 학습을 가능하게 합니다. Keel은 1000개가 넘는 계층 깊이에서도 강건하게 학습되며, Pre-LN 대비 지속적으로 낮은 퍼플렉서티와 향상된 깊이 확장 특성을 보여줍니다. 이러한 결과는 Post-LN이 Highway 스타일 연결과 결합될 경우, 심층 확장 가능한 LLM 구축을 위한 간단하면서도 효과적인 기반을 제공하여 향후 무한 깊이 아키텍처의 가능성을 열어줌을 시사합니다.
정렬 기술의 상당한 발전에도 불구하고, 대규모 언어 모델(LLM)은 유해한 행동을 유발하는 적대적 공격에 취약한 상태로 남아 있습니다. 활성화 조종 기술은 추론 시점에 개입할 수 있는 유망한 접근법을 제공하지만, 기존 방법들은 중요한 한계를 지니고 있습니다: 활성화 덧셈은 신중한 계수 조정이 필요하며 계층별 노름 변동에 민감한 반면, 방향성 제거는 이진 제어만 제공합니다. 각도 조종에 대한 최근 연구는 2차원 부분공간에서의 회전을 통한 연속 제어를 도입했지만, 실제 구현에서는 노름 보존을 위반하여 분포 변화와 생성 붕괴를 초래하며, 특히 70억 개 미만의 매개변수를 가진 모델에서 이러한 현상이 두드러집니다. 본 논문에서는 이러한 한계를 해결하는 선택적 조종을 제안합니다. 이 방법은 두 가지 핵심 혁신을 통해 이루어집니다: (1) 활성화 분포 무결성을 유지하는 수학적으로 엄밀한 노름 보존 회전 공식화와 (2) 특징 표현이 반대 부호의 클래스 정렬을 보이는 계층에만 선택적으로 조종을 적용하는 판별적 계층 선택입니다. 9개 모델에 대한 실험 결과, 선택적 조종은 기존 방법보다 5.5배 높은 공격 성공률을 달성하면서도 퍼플렉서티 위반은 전혀 발생하지 않았으며 표준 벤치마크에서 약 100%의 능력 보존율을 보였습니다. 우리의 접근법은 통제 가능하고 안정적인 LLM 행동 수정을 위한 원칙적이고 효율적인 프레임워크를 제공합니다. 코드: https://github.com/knoveleng/steering
현대 데이터 병렬(DP) 학습은 균형 잡힌 작업 부하에서의 간결성과 효율성으로 인해 매개변수 서버(PS)보다 집단 통신을 선호합니다. 그러나 균형 잡힌 작업 부하 가정은 시퀀스 길이의 높은 변동성으로 인해 대규모 언어 모델(LLM) 후속 학습에서는 더 이상 유효하지 않습니다. 불균형한 작업 부하 상황에서 집단 통신은 동기화 장벽을 생성하여 작업 부하가 적은 장치의 활용도를 저하시킵니다. 이러한 학습 역학의 변화는 불균형에 대한 강건성으로 인해 PS 패러다임을 재검토할 필요성을 제기합니다. 우리는 집단적 전체 수집 및 축소 분산을 직접적인 점대점 통신으로 대체하여 PS를 완전 분산 데이터 병렬(FSDP)에 적용하는 주문형 통신(ODC)을 제안합니다. ODC는 FSDP 대비 동기화 장벽을 레이어당 한 번에서 미니배치당 한 번으로 줄이고, 각 장치의 작업 부하를 분리하여 더 빠른 작업자가 지연되지 않도록 합니다. 또한 미니배치 수준에서 더 간단하고 효과적인 부하 분산을 가능하게 합니다. 다양한 LLM 후속 학습 작업에서 ODC는 장치 활용도와 학습 처리량을 지속적으로 향상시켜 표준 FSDP 대비 최대 36%의 속도 향상을 달성했습니다. 이러한 결과는 ODC가 LLM 후속 학습에서 흔히 발생하는 불균형 작업 부하에 더 적합함을 보여줍니다. ODC의 구현 및 FSDP 통합 코드는 https://github.com/sail-sg/odc에서 오픈소스로 공개되어 있습니다.
우리는 다중모드 대규모 언어 모델(MLLM)에 기본적인 픽셀 수준 인식 능력을 부여하기 위해 매우 단순하면서도 높은 효과를 보이는 접근법인 SimpleSeg를 소개합니다. 우리의 방법은 분할을 단순한 시퀀스 생성 문제로 재정의합니다: 모델이 객체 경계를 정의하는 점들의 시퀀스(텍스트 좌표)를 자체 언어 공간 내에서 직접 예측하는 방식입니다. 높은 정확도를 달성하기 위해 IoU 기반 보상 강화 학습을 통해 점 시퀀스를 실제 경계에 정확히 맞도록 정제하는 두 단계의 SFtoRL 학습 파이프라인을 도입했습니다. 우리는 표준 MLLM 아키텍처가 특화된 구조 없이도 활성화될 수 있는 강력한 저수준 인식 내재 능력을 보유하고 있음을 발견했습니다. 분할 벤치마크에서 SimpleSeg는 복잡한 작업 전용 설계에 의존하는 방법들과 비교하여 견줄 만하거나 종종 능가하는 성능을 달성합니다. 이 연구는 정밀한 공간 이해가 단순한 점 예측에서 출현할 수 있음을 보여주며, 보조 컴포넌트에 대한 기존의 필요성에 도전하고 더 통합적이고 능력 있는 VLM의 길을 열어줍니다. 홈페이지: https://simpleseg.github.io/
최근 논문 심사 과정, 프리프린트, 또는 게재된 논문에서 기존 연구와 전혀 일치하지 않는 허구적 인용이나 참고문헌이 빈번히 관찰되고 있습니다. 이러한 허구적 인용은 과학적 신뢰성에 심각한 우려를 제기합니다. 게재된 논문에 등장할 경우, 학회의 신뢰도에도 부정적인 영향을 미칠 수 있습니다. 본 연구에서는 이러한 허구적 인용을 '허구 인용(HalluCitation)'이라 명명하고 그 유병률과 영향력을 체계적으로 조사합니다. 우리는 2024년과 2025년에 ACL, NAACL, EMNLP에서 발표된 모든 논문(본 회의, Findings, 워크샵 논문 포함)을 분석합니다. 분석 결과, 약 300편의 논문이 최소 하나 이상의 허구 인용을 포함하고 있는 것으로 나타났으며, 이 중 대부분이 2025년에 출판되었습니다. 특히, 이러한 논문의 절반 가량이 가장 최근 학회인 EMNLP 2025에서 발견되어 이 문제가 빠르게 증가하고 있음을 시사합니다. 더욱이, EMNLP 2025에서는 100편 이상의 해당 논문이 본 회의 및 Findings 논문으로 채택되어 신뢰도에 영향을 미쳤습니다.
확산 모델은 최첨단 성능을 달성하지만 인간의 선호도와 의도를 충족시키지 못해 미적 품질이 낮고 의미론적 일관성이 부족한 이미지를 생성하는 경우가 많습니다. 기존 정렬 방법은 어려운 절충을 요구하는데, 미세 조정 기법은 보상 과최적화로 인한 다양성 손실을 겪는 반면, 테스트 시간 스케일링 방법은 상당한 계산 부담을 초래하고 최적화가 부족한 경향이 있습니다. 이러한 한계를 해결하기 위해 우리는 효율적이고 효과적인 테스트 시간 정렬을 위한 하이퍼네트워크를 학습하는 새로운 프레임워크인 HyperAlign을 제안합니다. HyperAlign은 잠재 상태를 수정하는 대신 확산 모델의 생성 연산자를 조절하기 위한 저순위 적응 가중치를 동적으로 생성합니다. 이를 통해 잡음 제거 궤적이 입력 잠재 변수, 타임스텝, 프롬프트에 기반하여 보상 조건 정렬을 위해 적응적으로 조정될 수 있습니다. 우리는 하이퍼네트워크 적용 빈도에 따라 성능과 효율성 사이의 균형을 맞추는 여러 HyperAlign 변형을 소개합니다. 또한 보상 해킹을 줄이기 위해 선호도 데이터로 정규화된 보상 점수 목적 함수를 사용하여 하이퍼네트워크를 최적화합니다. HyperAlign을 Stable Diffusion과 FLUX를 포함한 다양한 확장 생성 패러다임에서 평가한 결과, 의미론적 일관성과 시각적 매력 향상에 있어 기존 미세 조정 및 테스트 시간 스케일링 기준선을 크게 능가하는 것으로 나타났습니다.
벤치마크는 대규모 언어 모델(LLM) 개발 과정의 진전을 추적하는 중요한 도구이지만, 데이터셋과 평가 방법의 부정확성은 지속적으로 그 효과성을 훼손하고 있습니다. 본 논문에서는 Omni-MATH 데이터셋의 수동 검수 버전인 Omni-MATH-2를 소개합니다. 이 데이터셋은 정제된 정답 부문(n=4181)과 태그가 지정된 비표준 부문(n=247)으로 구성됩니다. 각 문제는 LaTeX 컴파일 가능성, 해결 가능성, 검증 가능성을 보장하기 위해 감사되었으며, 이 과정에서 누락된 그림이나 정보 추가, 증명/추정/이미지가 필요한 문제 라벨링, 불필요한 요소 제거가 수행되었습니다. 이 과정은 데이터셋으로 인한 노이즈를 상당히 줄여 모델 성능을 더 정밀하게 평가할 수 있게 합니다. 주석이 달린 이 데이터셋을 통해 GPT-5 mini와 기존 Omni-Judge를 비교하여 평가자(Judge)에 의한 노이즈도 평가할 수 있었으며, 정제된 부문과 태그 부문 모두에서 평가자 간 상당한 차이가 발견되었습니다. 전문가 검증 결과, 평가자 간 불일치 사례 중 96.4%에서 Omni-Judge가 오류를 보였는데, 이는 벤치마크가 포화 상태에 도달하기 훨씬 전부터도 Omni-Judge가 모델 간 능력 차이를 구분하지 못함을 시사합니다. 문제가 더 어려워질수록, 평가자 오류가 모델 간 실제 차이를 가리는 것을 방지하기 위해 더욱 정교한 평가자의 필요성이 커집니다. 마지막으로, 두 평가자 모두 태그 부문 문제들의 현재 실패 모드를 식별하지 못했으며, 이는 모델 성능에 대한 정확한 벤치마크 개발에 데이터셋 품질과 평가자 신뢰도가 모두 중요함을 보여줍니다.
G 단백질 연결 수용체(GPCR)는 다양한 생리학적 과정을 조절하며 현대 약리학의 중심에 있습니다. 그러나 수용체 활성화는 종종 직접적인 결합 친화력보다는 복잡한 알로스테릭 효과에서 비롯되며, 기존 분석법은 이러한 역동성을 포착하도록 최적화되지 않고 느리고 비용이 많이 들어 GPCR 조절제 발견은 여전히 어려운 과제로 남아 있습니다. 본 연구에서는 GPCR 조절제 발견을 위해 특수 개발된 딥러닝 프레임워크인 GPCR-Filter를 소개합니다. 우리는 90,000개 이상의 실험적으로 검증된 GPCR-리간드 쌍으로 구성된 고품질 데이터셋을 구축하여 훈련 및 평가를 위한 견고한 기반을 마련했습니다. GPCR-Filter는 고충실도 GPCR 서열 표현을 위한 ESM-3 단백질 언어 모델과 리간드 구조를 인코딩하는 그래프 신경망을 통합하며, 수용체-리간드 기능적 관계를 학습하는 어텐션 기반 융합 메커니즘으로 결합됩니다. 다양한 평가 설정에서 GPCR-Filter는 최신 화합물-단백질 상호작용 모델을 지속적으로 능가하며 보지 않은(unseen) 수용체와 리간드에 대한 강력한 일반화 성능을 나타냈습니다. 특히, 이 모델은 뚜렷한 화학적 골격을 가진 5-HT1A 수용체의 마이크로몰 수준 작용제를 성공적으로 식별했습니다. 이러한 결과는 GPCR-Filter를 GPCR 조절제 발견을 위한 확장 가능하고 효과적인 계산 접근법으로 입증하며, 복잡한 신호전달 시스템을 위한 AI 기반 약물 개발을 발전시킵니다.
깊이 센서는 로봇 플랫폼에 광범위하게 활용되며, 빠르고 높은 정확도의 깊이 시뮬레이션 기술의 발전으로 인해 깊이 관측 데이터로 훈련된 로봇 정책들이 다양한 작업에서 강력한 시뮬레이션-현실 전이 성능을 달성하고 있습니다. 그럼에도 불구하고, 깊이 모달리티에 대한 표현 학습은 대규모 파운데이션 모델이 최첨단을 정의하는 RGB 모달리티에 비해 상대적으로 덜 탐구되었습니다. 이러한 격차를 해결하기 위해 우리는 로봇 응용을 위해 오직 깊이 이미지로만 훈련된 자기 지도 학습 기반 파운데이션 모델인 DeFM을 제안합니다. 6천만 개의 깊이 이미지로 구성된 정제된 데이터셋에 DINO 스타일의 자기 디스틸레이션 목표를 적용함으로써, DeFM은 다양한 환경, 작업 및 센서에 일반화되는 기하학적 및 의미론적 표현을 학습합니다. 다양한 스케일에서 미터법 인식을 유지하기 위해 우리는 새로운 입력 정규화 전략을 도입했습니다. 또한 우리는 자원이 제한된 로봇 시스템에 적합한 컴팩트 모델로 DeFM을 디스틸레이션합니다. 깊이 기반 분류, 분할, 탐색, 이동 및 조작 벤치마크에서 평가했을 때, DeFM은 최첨단 성능을 달성하고 시뮬레이션에서 실제 환경으로의 강력한 일반화 능력을 입증했습니다. 우리는 작업별 미세 조정 없이 깊이 기반 로봇 학습에 즉시 활용 가능한 모든 사전 훈련된 모델을 공개합니다. 웹페이지: https://de-fm.github.io/
팀 갈등 해결에는 과업 특화 역량뿐만 아니라 공통된 이해를 찾아 공감대를 형성하는 사회적 지능이 필요합니다. AI 에이전트가 복잡한 작업을 점점 더 많이 협업하게 됨에 따라, 효과적인 팀원으로 기능하기 위해 조정 능력을 개발해야 합니다. 그러나 우리는 현재의 에이전트가 이러한 능력을 결여하고 있다는 가설을 세웁니다. 이를 검증하기 위해 우리는 4개 프로그래밍 언어의 12개 라이브러리에 걸친 600개 이상의 협업 코딩 과제로 구성된 CooperBench 벤치마크를 소개합니다. 각 과제는 두 에이전트에게 독립적으로 구현 가능하지만 적절한 조정 없이는 충돌할 수 있는 서로 다른 기능을 할당합니다. 과제는 전문가가 작성한 테스트가 포함된 실제 오픈소스 저장소를 기반으로 합니다. 최첨단 코딩 에이전트를 평가한 결과, 우리는 조정의 저주를 관찰했습니다: 에이전트는 각 과제를 개별적으로 수행할 때보다 함께 작업할 때 평균 30% 낮은 성공률을 보였습니다. 이는 팀원을 추가하면 일반적으로 생산성이 향상되는 인간 팀과는 극명한 대조를 이룹니다. 우리의 분석은 세 가지 주요 문제점을 드러냈습니다: (1) 의사소통 채널이 모호하고 시기 적절하지 않으며 부정확한 메시지로 마비됩니다; (2) 효과적인 의사소통이 이루어져도 에이전트는 자신의 약속에서 이탈합니다; (3) 에이전트는 종종 다른 에이전트의 계획과 의사소통에 대해 잘못된 기대를 품습니다. 대규모 시뮬레이션을 통해 우리는 역할 분담, 자원 분배, 협상 등 드물지만 흥미로운 창발적 조정 행동도 관찰했습니다. 우리의 연구는 협업 코딩을 위한 새로운 벤치마크를 제시하고 개별 에이전트 능력 추구에서 사회적 지능 개발로의 전환을 촉구합니다.
Verilog 설계 주기는 본질적으로 노동 집약적이며 광범위한 도메인 전문 지식을 필요로 합니다. 대규모 언어 모델(LLM)이 자동화를 위한 유망한 경로를 제공하지만, 제한된 학습 데이터와 본질적인 순차적 추론 방식으로 인해 하드웨어 시스템에 내재된 엄격한 형식 논리와 동시성을 포착하지 못합니다. 이러한 장벽을 극복하기 위해 본 논문에서는 EvolVE를 제시합니다. EvolVE는 칩 설계 작업에 대한 다양한 진화 전략을 분석하는 최초의 프레임워크로, 몬테카를로 트리 탐색(MCTS)이 기능적 정확성 극대화에 탁월한 반면 아이디어 기반 정교화(IGR)는 최적화에 더 우수함을 입증합니다. 또한 구조적 테스트벤치 생성(STG)을 활용하여 진화 과정을 가속화합니다. 복잡한 최적화 벤치마크의 부족을 해결하기 위해 국가 집적회로 경진대회에서 도출된 산업 규모 문제를 대상으로 하는 IC-RTL을 소개합니다. 평가 결과 EvolVE는 VerilogEval v2에서 98.1%, RTLLM v2에서 92%를 달성하여 새로운 최첨단 기술로 자리매김했습니다. 더 나아가 산업 규모 IC-RTL 슈트에서 우리의 프레임워크는 경진대회 참가자가 작성한 참조 구현을 능가하며, 허프만 코딩에서 PPA(성능, 전력, 면적) 곱을 최대 66%까지, 모든 문제에 대한 기하 평균으로 17%까지 감소시켰습니다. IC-RTL 벤치마크의 소스 코드는 https://github.com/weiber2002/ICRTL에서 확인할 수 있습니다.
기존 능력의 저하 없이 새로운 기술과 지식을 습득할 수 있는 지속 학습은 파운데이션 모델의 근본적인 과제로 남아 있습니다. 온-정책 강화 학습은 망각을 줄일 수 있지만, 흔히 사용할 수 없는 명시적 보상 함수를 필요로 합니다. 전문가 데모를 통한 학습이라는 주요 대안은 현재 지도 미세 조정(SFT)이 주류를 이루고 있으며, 이는 본질적으로 오프-정책 방식입니다. 우리는 데모에서 직접 온-정책 학습을 가능하게 하는 간단한 방법인 자기 지식 증류 미세 조정(SDFT)을 소개합니다. SDFT는 데모 조건화 모델을 자체 교사로 활용하여 문맥 학습의 이점을 살리며, 새로운 기술을 습득하는 동시에 기존 능력을 보존하는 온-정책 훈련 신호를 생성합니다. 기술 학습 및 지식 습득 과제 전반에 걸쳐 SDFT는 SFT를 지속적으로 능가하며, 새로운 작업의 정확도를 높이는 동시에 치명적 망각을 크게 줄였습니다. 순차적 학습 실험에서 SDFT는 단일 모델이 성능 저하 없이 시간에 따라 여러 기술을 축적할 수 있게 하여, 데모 기반 지속 학습을 위한 실용적인 방안으로 온-정책 증류의 가능성을 입증했습니다.