번역이 포함된 일일 선별된 AI 연구 논문
검증 가능한 보상을 활용한 강화 학습(Reinforcement Learning with Verifiable Rewards, RLVR)은 최근 대규모 언어 모델(Large Language Models, LLMs)의 사후 훈련, 특히 복잡한 추론 작업을 위한 핵심 패러다임으로 부상하고 있습니다. 그러나 기본적인 RLVR 훈련은 Pass@1 성능을 향상시키는 대신 정책 엔트로피를 감소시켜 생성 다양성을 줄이고, 일반적으로 LLM 추론 능력의 상한을 나타내는 Pass@k 성능을 제한하는 것으로 나타났습니다. 본 논문에서는 훈련 문제의 관점에서 정책의 생성 다양성을 체계적으로 분석하고, 훈련 문제를 보강하고 업데이트하는 것이 훈련 중 엔트로피 붕괴를 완화하는 데 도움이 된다는 사실을 발견했습니다. 이러한 관찰을 바탕으로, 우리는 RLVR 훈련을 위한 온라인 자기 대결과 변형 문제 합성(Self-play with Variational problem Synthesis, SvS) 전략을 제안합니다. 이 전략은 정책의 정확한 해결책을 사용하여 변형 문제를 합성하면서도 참조 답변이 원본과 동일하게 유지되도록 합니다. 이 자기 개선 전략은 훈련 중 정책 엔트로피를 효과적으로 유지하고, 표준 RLVR과 비교하여 Pass@k 성능을 크게 향상시켜 지속적인 개선을 유지하며, 경쟁 수준의 AIME24 및 AIME25 벤치마크에서 Pass@32 성능을 각각 18.3%와 22.8% 절대적으로 향상시켰습니다. 3B에서 32B까지 다양한 모델 크기에 걸친 12개의 추론 벤치마크 실험에서 SvS의 일반화성과 견고성을 일관되게 입증했습니다.
본 논문에서는 기저 대형 언어 모델(LLM)의 미세 조정 없이도 적응 가능한 LLM 에이전트를 위한 새로운 학습 패러다임을 소개한다. 기존 접근법은 정적이고 수작업으로 설계된 반영 워크플로우에 의존하거나, LLM 모델 파라미터의 그래디언트 업데이트를 요구하는 등 경직적이거나 계산 비용이 많이 드는 경우가 많았다. 이에 반해, 우리의 방법은 메모리 기반 온라인 강화 학습을 통해 저비용의 지속적 적응을 가능하게 한다. 이를 메모리 증강 마르코프 결정 과정(M-MDP)으로 공식화하며, 행동 결정을 안내하는 신경망 기반 사례 선택 정책을 갖추고 있다. 과거 경험은 미분 가능하거나 비모수적인 에피소드 메모리에 저장된다. 정책은 환경 피드백을 통해 메모리 재작성 메커니즘에 의해 지속적으로 업데이트되며, 효율적인 메모리 읽기(검색)를 통해 정책 개선이 이루어진다. 우리는 에이전트 모델을 딥 리서치 환경, 즉 AgentFly로 구체화했으며, 이는 GAIA 검증에서 87.88% Pass@3로 1위를 차지했고 테스트 세트에서 79.40%를 달성했다. 또한 DeepResearcher 데이터셋에서 66.6% F1과 80.4% PM을 기록하여 최신 학습 기반 방법을 능가했으며, 사례 기반 메모리는 분포 외 작업에서 4.7%에서 9.6%의 절대적 점수 향상을 추가했다. 우리의 접근법은 그래디언트 업데이트 없이도 실시간 학습이 가능한 일반화된 LLM 에이전트 개발을 위한 확장 가능하고 효율적인 경로를 제공하며, 기계 학습을 개방형 기술 습득 및 딥 리서치 시나리오로 나아가게 한다. 코드는 https://github.com/Agent-on-the-Fly/AgentFly에서 확인할 수 있다.
언어 지시 장기간 이동 조작은 구체화된 의미론적 추론, 일반화 가능한 조작, 그리고 적응형 이동성 분야에서 오랫동안 큰 도전 과제로 여겨져 왔습니다. 이러한 진전을 가로막는 세 가지 근본적인 한계가 존재합니다: 첫째, 대규모 언어 모델이 의미론적 사전 지식을 통해 공간 추론과 작업 계획 능력을 향상시켰음에도 불구하고, 기존 구현들은 주로 탁상 시나리오에 국한되어 있어 이동 플랫폼의 제한된 인지 능력과 작동 범위를 해결하지 못하고 있습니다. 둘째, 현재의 조작 전략은 개방형 환경에서 마주치는 다양한 객체 구성에 충분히 일반화되지 못하고 있습니다. 셋째, 실질적인 배포에 있어 필수적인, 비정형 환경에서 높은 플랫폼 기동성과 정밀한 엔드 이펙터 제어를 동시에 요구하는 이중 요구 사항은 아직 충분히 연구되지 않았습니다. 본 연구에서는 매니퓰레이터가 장착된 민첩한 사족 보행 로봇을 위한 통합 이동 조작 프레임워크인 ODYSSEY를 제안합니다. 이 프레임워크는 상위 수준의 작업 계획과 하위 수준의 전신 제어를 원활하게 통합합니다. 언어 조건화 작업에서 자기 중심적 인지의 문제를 해결하기 위해, 우리는 비전-언어 모델로 구동되는 계층적 플래너를 도입하여 장기간 지시 분해와 정확한 작업 실행을 가능하게 합니다. 제어 수준에서는, 우리의 새로운 전신 정책이 도전적인 지형에서 견고한 조정을 달성합니다. 또한, 우리는 다양한 실내 및 실외 시나리오를 평가하는 첫 번째 장기간 이동 조작 벤치마크를 제시합니다. 시뮬레이션에서 실제로의 성공적인 전이를 통해, 우리는 이 시스템의 일반화 능력과 실제 배포에서의 견고성을 입증하며, 비정형 환경에서 다리형 매니퓰레이터의 실용성을 강조합니다. 우리의 연구는 복잡하고 동적인 작업을 수행할 수 있는 일반화된 로봇 보조자의 실현 가능성을 한 단계 더 진전시킵니다. 프로젝트 페이지: https://kaijwang.github.io/odyssey.github.io/
외심적 비디오 합성은 큰 진전을 이루었지만, 착용자의 신체 움직임에 의해 유발되는 카메라 모션 패턴과 함께 1인칭 시점 콘텐츠를 모델링해야 하는 자기중심적 비디오 생성은 여전히 크게 탐구되지 않은 상태입니다. 이러한 격차를 해소하기 위해, 우리는 자기중심적 비디오와 인간 모션의 결합 생성을 위한 새로운 과제를 소개합니다. 이 과제는 두 가지 주요 도전 과제로 특징지어집니다: 1) 시점 정렬: 생성된 비디오의 카메라 궤적은 인간 모션에서 파생된 머리 궤적과 정확히 일치해야 합니다; 2) 인과적 상호작용: 합성된 인간 모션은 인접한 비디오 프레임 간의 관찰된 시각적 역학과 인과적으로 일치해야 합니다. 이러한 도전 과제를 해결하기 위해, 우리는 디퓨전 트랜스포머 아키텍처를 기반으로 한 EgoTwin이라는 비디오-모션 결합 생성 프레임워크를 제안합니다. 구체적으로, EgoTwin은 인간 모션을 머리 관절에 고정하는 머리 중심 모션 표현을 도입하고, 사이버네틱스에서 영감을 받은 상호작용 메커니즘을 통해 비디오와 모션 간의 인과적 상호작용을 주의 연산 내에서 명시적으로 포착합니다. 포괄적인 평가를 위해, 우리는 동기화된 텍스트-비디오-모션 삼중항으로 구성된 대규모 실세계 데이터셋을 구축하고, 비디오-모션 일관성을 평가하기 위한 새로운 메트릭을 설계했습니다. 광범위한 실험을 통해 EgoTwin 프레임워크의 효과성을 입증했습니다.
대규모 언어 모델(LLM)이 실제 애플리케이션에 점점 더 많이 배포됨에 따라, 모델의 유용성을 유지하면서 원치 않는 지식을 선택적으로 제거할 필요성이 중요해졌다. 최근 연구에서는 단의적(single-meaning) 특성에 대한 정밀한 개입을 수행하기 위해 희소 오토인코더(SAE)를 탐구해왔다. 그러나 대부분의 SAE 기반 방법은 추론 시점에 작동하며, 이는 모델의 매개변수에 지속적인 변화를 만들지 못한다. 이러한 개입은 매개변수 접근 권한을 가진 악의적인 행위자에 의해 우회되거나 되돌릴 수 있다. 우리는 SAE를 사용한 지속적인 개념 제거를 위한 매개변수 효율적 방법인 CRISP를 소개한다. CRISP는 여러 계층에 걸쳐 중요한 SAE 특성을 자동으로 식별하고 그 활성화를 억제한다. 우리는 두 가지 LLM을 대상으로 실험을 진행했으며, WMDP 벤치마크의 안전 관련 제거 작업에서 기존 접근법을 능가하는 성능을 보여주면서 유해한 지식을 성공적으로 제거하고 일반적 및 도메인 내 능력을 보존함을 입증했다. 특성 수준 분석은 CRISP가 목표 개념과 무해한 개념 간에 의미적으로 일관된 분리를 달성함으로써 목표 특성을 정확하게 억제할 수 있음을 보여준다.
개체가 객체와 상호작용하는 것을 용이하게 하려면 특정 행동을 가능하게 하는 부위를 정확히 식별해야 합니다. 약한 감독 하의 행동 가능성 기반 설정(WSAG)은 제3자 시점의 시연을 통해 인간이 직관적으로 기능적 부위를 파악하는 방식을 모방하려고 합니다. 이를 위해 일반적으로 서로 다른 시각에서 촬영된 이미지들 간에 공유 분류기를 사용하고, 부위 발견 과정을 포함한 증류 전략을 통해 기반 설정을 학습합니다. 그러나 행동 가능성과 관련된 부위가 항상 쉽게 구분되지는 않기 때문에, 모델은 주로 분류에 의존하며 종종 행동 가능성과 무관한 클래스별 공통 패턴에 초점을 맞추는 경향이 있습니다. 이러한 한계를 극복하기 위해, 우리는 고립된 부위 수준의 학습을 넘어, 사용 가능한 정보의 세분성에 따라 부위 및 객체 수준에서 행동 가능성과 관련된 단서를 적응적으로 학습하는 선택적 프로토타입 및 픽셀 대조 목표를 도입합니다. 먼저, CLIP을 활용하여 자기 중심적(객체 중심) 및 타자 중심적(제3자 예시) 이미지에서 행동과 관련된 객체를 찾습니다. 그런 다음 상호 보완적인 시각에서 발견된 객체를 교차 참조하여 각 시각에서 정확한 부위 수준의 행동 가능성 단서를 발굴합니다. 행동 가능성과 관련된 영역을 관련 없는 배경 맥락과 지속적으로 구분하도록 학습함으로써, 우리의 접근 방식은 관련 없는 영역에서 의미 있는 행동 가능성 단서로 활성화를 효과적으로 전환합니다. 실험 결과는 우리 방법의 효과를 입증합니다. 코드는 github.com/hynnsk/SelectiveCL에서 확인할 수 있습니다.
경쟁 프로그래밍은 대규모 언어 모델(LLM)의 추론 및 코딩 능력을 평가하는 중요한 벤치마크로 부상했습니다. 기존 벤치마크에서의 인상적인 진전에도 불구하고, 우리는 현재의 평가가 모델의 숙련도를 과대평가하여 LLM과 엘리트 인간 프로그래머 간의 상당한 격차를 가리고 있다고 주장합니다. 이 격차는 두 가지 주요 한계에서 비롯됩니다: 벤치마크 문제의 난이도와 범위가 불충분하다는 점, 그리고 저품질 테스트 케이스로 인한 평가 편향입니다. 이러한 단점을 해결하기 위해, 우리는 IOI와 ICPC와 같은 주요 프로그래밍 대회에서 문제를 가져와 더 넓은 범위와 높은 난이도를 제공하는 새로운 벤치마크인 AetherCode를 제시합니다. AetherCode는 자동 생성과 인간 검증을 결합한 포괄적이고 전문가 검증된 테스트 스위트를 추가로 통합하여 엄격하고 신뢰할 수 있는 평가를 보장합니다. 도전적인 문제 설계와 견고한 평가를 결합함으로써, AetherCode는 LLM의 능력을 더 정확하게 측정하고 코드 추론 분야의 미래 연구를 위한 새로운 기준을 제시합니다.
대형 언어 모델(LLMs)의 급속한 발전에 힘입어, 에이전트는 내재된 지식과 동적 도구 사용을 결합할 수 있는 능력을 갖추게 되었으며, 이를 통해 현실 세계의 과제를 해결하는 능력이 크게 향상되었습니다. 이러한 진화에 발맞춰, AgentScope은 새로운 버전(1.0)에서 주요 개선 사항을 도입하여, 에이전트 기반 애플리케이션 구축을 위한 유연하고 효율적인 도구 기반 에이전트-환경 상호작용을 포괄적으로 지원합니다. 구체적으로, 우리는 에이전트 기반 애플리케이션에 필수적인 기본 구성 요소를 추상화하고, 통합 인터페이스와 확장 가능한 모듈을 제공하여 개발자들이 새로운 모델 및 MCPs와 같은 최신 기술을 쉽게 활용할 수 있도록 합니다. 더 나아가, 우리는 에이전트의 행동을 ReAct 패러다임에 기반을 두고, 체계적인 비동기 설계를 기반으로 한 고급 에이전트 수준의 인프라를 제공함으로써, 인간-에이전트 및 에이전트 간 상호작용 패턴을 풍부하게 하면서도 실행 효율성을 향상시킵니다. 이러한 기반 위에, 우리는 특정 실용적 시나리오에 맞춤화된 여러 내장 에이전트를 통합합니다. AgentScope은 또한 개발자 친화적인 경험을 위한 강력한 엔지니어링 지원을 포함합니다. 우리는 비주얼 스튜디오 인터페이스를 갖춘 확장 가능한 평가 모듈을 제공하여, 장기 궤적 에이전트 기반 애플리케이션의 개발을 더 관리하기 쉽고 추적하기 쉽게 만듭니다. 또한, AgentScope은 안전한 에이전트 실행을 보장하고 프로덕션 환경에서의 신속한 배포를 용이하게 하는 런타임 샌드박스를 제공합니다. 이러한 개선 사항을 통해, AgentScope은 확장 가능하고 적응적이며 효과적인 에이전트 기반 애플리케이션 구축을 위한 실용적인 기반을 제공합니다.
의료 대형 언어 모델(LLM)을 이용한 정확한 진단은 지식 격차와 환각 현상으로 인해 제한을 받고 있습니다. 검색 및 도구 보강 방법이 도움을 주지만, 외부 지식의 약한 활용과 피드백-추적 가능성의 부족으로 그 효과가 제한적입니다. 이러한 문제를 해결하기 위해, 우리는 강화 학습(RL)을 통해 종단 간 학습된 에이전트 기반 RAG 시스템인 Deep-DxSearch를 소개합니다. Deep-DxSearch는 의료 진단을 위한 추적 가능한 검색 보강 추론을 가능하게 합니다. Deep-DxSearch에서는 먼저 환자 기록과 신뢰할 수 있는 의료 지식 소스를 포함한 대규모 의료 검색 코퍼스를 구축하여 다양한 진단 시나리오에서 검색 인식 추론을 지원합니다. 더욱 중요한 것은, LLM을 핵심 에이전트로 설정하고 검색 코퍼스를 환경으로 간주하여 형식, 검색, 추론 구조, 진단 정확성에 맞춤화된 보상을 사용함으로써, 대규모 데이터를 통해 에이전트 RAG 정책을 진화시킵니다. 실험 결과, 우리의 종단 간 에이전트 RL 학습 프레임워크는 여러 데이터 센터에서 프롬프트 엔지니어링 및 학습 없는 RAG 접근법을 지속적으로 능가하는 것으로 나타났습니다. 학습 후, Deep-DxSearch는 분포 내 및 분포 외 설정에서 일반 및 희귀 질병 진단 모두에서 GPT-4o, DeepSeek-R1 및 기타 의료 특화 프레임워크와 같은 강력한 진단 기준을 크게 능가하는 진단 정확성 향상을 달성했습니다. 또한, 보상 설계 및 검색 코퍼스 구성 요소에 대한 제거 연구는 이들의 중요한 역할을 확인하며, 전통적인 구현 방식과 비교하여 우리 접근법의 독창성과 효과를 강조합니다. 마지막으로, 사례 연구와 해석 가능성 분석은 Deep-DxSearch의 진단 정책 개선을 강조하며, 그 성능 향상에 대한 깊은 통찰을 제공하고 임상의가 더 신뢰할 수 있고 정확한 예비 진단을 내리는 데 도움을 줍니다. 자세한 내용은 https://github.com/MAGIC-AI4Med/Deep-DxSearch를 참조하십시오.
최근 비디오 편집 방법들은 스타일 전이나 외관 수정에서 매력적인 결과를 달성하고 있습니다. 그러나 비디오에서 3D 장면의 구조적 내용을 편집하는 것은 여전히 어려운 과제로 남아 있으며, 특히 큰 카메라 회전이나 줌과 같은 상당한 시점 변화를 다룰 때 더욱 그러합니다. 주요 과제로는 원본 비디오와 일관성을 유지하는 새로운 시점 콘텐츠 생성, 편집되지 않은 영역 보존, 그리고 희소한 2D 입력을 사실적인 3D 비디오 출력으로 변환하는 것이 있습니다. 이러한 문제를 해결하기 위해, 우리는 Sketch3DVE를 제안합니다. 이는 스케치 기반의 3D 인식 비디오 편집 방법으로, 상당한 시점 변화가 있는 비디오의 세부적인 지역 조작을 가능하게 합니다. 희소 입력으로 인한 문제를 해결하기 위해, 우리는 이미지 편집 방법을 사용하여 첫 프레임에 대한 편집 결과를 생성한 후 이를 비디오의 나머지 프레임으로 전파합니다. 우리는 정확한 기하학적 제어를 위한 상호작용 도구로 스케치를 활용하며, 다른 마스크 기반 이미지 편집 방법도 지원합니다. 시점 변화를 처리하기 위해, 우리는 비디오의 3D 정보를 상세히 분석하고 조작합니다. 구체적으로, 우리는 밀집 스테레오 방법을 사용하여 입력 비디오의 포인트 클라우드와 카메라 파라미터를 추정합니다. 그런 다음, 우리는 새로 편집된 구성 요소의 3D 기하학을 표현하기 위해 깊이 맵을 사용하는 포인트 클라우드 편집 접근법을 제안하여 이를 원본 3D 장면과 효과적으로 정렬합니다. 새로 편집된 콘텐츠를 원본 비디오와 원활하게 병합하면서 편집되지 않은 영역의 특징을 보존하기 위해, 우리는 3D 인식 마스크 전파 전략을 도입하고 비디오 확산 모델을 사용하여 사실적인 편집 비디오를 생성합니다. 광범위한 실험을 통해 Sketch3DVE의 비디오 편집 우수성을 입증합니다. 홈페이지 및 코드: http://geometrylearning.com/Sketch3DVE/
최근, 비전-언어-행동(Vision-Language-Action, VLA) 모델들은 다양한 로봇 작업에서 강력한 성능을 보여주고 있습니다. 이러한 모델들은 다중 모달 입력에 의존하며, 언어 명령어는 행동 예측뿐만 아니라 사용자 의도를 견고하게 해석하는 데 중요한 역할을 합니다. 특히, 요청이 실행 불가능한 경우에도 이를 해석할 수 있습니다. 본 연구에서는 VLA 모델이 환경에 존재하지 않는 객체나 조건을 참조하는 자연어 명령어인 거짓 전제(false-premise) 명령어를 어떻게 인식, 해석, 그리고 응답할 수 있는지 조사합니다. 우리는 Instruct-Verify-and-Act(IVA)라는 통합 프레임워크를 제안합니다. 이 프레임워크는 (i) 거짓 전제로 인해 명령어가 실행될 수 없음을 감지하고, (ii) 언어 기반의 명확화 또는 수정을 수행하며, (iii) 가능한 대안을 지각과 행동에 기반하여 구체화합니다. 이를 위해, 구조화된 언어 프롬프트를 포함한 대규모 명령어 튜닝 설정을 구성하고, 정확한 요청과 오류가 있는 요청을 모두 처리할 수 있는 VLA 모델을 학습시킵니다. 우리의 접근 방식은 긍정적 명령어와 거짓 전제 명령어가 쌍을 이루는 반합성 데이터셋을 활용하여, 견고한 감지와 자연어 수정을 가능하게 합니다. 실험 결과, IVA는 거짓 전제 감지 정확도를 기준선 대비 97.56% 향상시키고, 거짓 전제 시나리오에서 성공적인 응답률을 50.78% 증가시킴을 보여줍니다.
DeepSeek-V2에서 소개된 Multi-Head Latent Attention(MLA)은 키-값 상태를 저차원 잠재 벡터로 압축하고, 이 벡터만 캐싱하여 메모리를 절약합니다. 그러나 텐서 병렬화(TP)에서는 어텐션 헤드가 여러 장치에 걸쳐 계산되며, 각 장치는 전체 캐시를 로드해야 하기 때문에 MLA의 장점이 Grouped Query Attention(GQA)에 비해 약화됩니다. 우리는 Tensor-Parallel Latent Attention(TPLA)을 제안합니다: 이 방식은 잠재 표현과 각 헤드의 입력 차원을 장치 간에 분할하고, 각 샤드에서 독립적으로 어텐션을 수행한 후 all-reduce를 통해 결과를 결합합니다. TPLA는 압축된 KV 캐시의 이점을 유지하면서 TP 효율성을 극대화합니다. Grouped Latent Attention(GLA)과 달리, TPLA의 모든 헤드는 여전히 전체 잠재 표현을 활용하여 더 강력한 표현 능력을 유지합니다. TPLA는 MLA를 사용해 사전 학습된 모델과 즉시 호환됩니다: MLA 스타일의 프리필링을 지원하고 재학습 없이도 효율적인 텐서 병렬 디코딩을 가능하게 합니다. TP 슬라이싱 전에 Hadamard 변환이나 PCA와 같은 간단한 직교 변환을 적용하면 샤드 간 간섭을 추가로 완화하여 정확도 저하를 최소화할 수 있습니다. DeepSeek-V3과 Kimi-K2에서 장치당 KV 캐시를 줄임으로써, 32K 토큰 컨텍스트 길이에서 각각 1.79배와 1.93배의 속도 향상을 달성하면서도 상식 및 LongBench 벤치마크에서 성능을 유지했습니다. TPLA는 FlashAttention-3로 구현 가능하여 실용적인 종단 간 가속을 가능하게 합니다.
3D 가우시안 스플래팅(3DGS)은 새로운 시점 합성(NVS)에서 뛰어난 효능을 보여왔습니다. 그러나 이 방법은 중요한 단점을 가지고 있습니다: 고품질 렌더링을 달성하기 위해서는 일반적으로 많은 수의 3D 가우시안이 필요하며, 이는 상당한 메모리 소비와 저장 공간 요구를 초래합니다. 이러한 문제를 해결하기 위해, 우리는 3DGS를 위한 첫 번째 지식 증류 프레임워크를 제안합니다. 이 프레임워크는 기본 3DGS, 노이즈가 추가된 변형, 그리고 드롭아웃 정규화 버전을 포함한 다양한 교사 모델을 특징으로 합니다. 이러한 교사 모델들의 출력은 경량화된 학생 모델의 최적화를 안내하기 위해 통합됩니다. 또한, 숨겨진 기하학적 구조를 증류하기 위해, 우리는 학생 모델과 교사 모델 간의 공간적 기하학적 분포 일관성을 향상시키기 위한 구조적 유사성 손실을 제안합니다. 다양한 데이터셋에 걸친 포괄적인 정량적 및 정성적 평가를 통해, 제안된 Distilled-3DGS는 복잡한 장치 없이도 간단하면서도 효과적인 프레임워크로서, 최신 방법들과 비교하여 렌더링 품질과 저장 효율성 모두에서 유망한 결과를 달성합니다. 프로젝트 페이지: https://distilled3dgs.github.io. 코드: https://github.com/lt-xiang/Distilled-3DGS.
등고선 또는 닫힌 평면 곡선은 다양한 분야에서 흔히 발견된다. 예를 들어, 컴퓨터 비전에서는 객체 경계로, 기상학에서는 등고선으로, 회전 기계의 궤적에서는 궤도로 나타난다. 등고선 데이터로부터 학습할 때, 입력의 평면 회전은 해당 출력의 회전을 초래하는 경우가 많다. 따라서 딥러닝 모델이 회전 등변성을 갖는 것이 바람직하다. 또한, 등고선은 일반적으로 시작점의 선택이 임의적인 에지 점들의 순서 있는 시퀀스로 표현된다. 따라서 딥러닝 방법이 순환 이동에 대해 등변성을 갖는 것도 바람직하다. 본 논문에서는 복소수 원형 컨볼루션을 통해 회전 및 순환 이동 등변성을 모두 달성하는 등고선 데이터 학습을 위한 딥러닝 프레임워크인 RotaTouille을 제시한다. 또한, 등변 비선형성, 코어싱 레이어, 그리고 전역 풀링 레이어를 도입하고 특성화하여 다운스트림 작업을 위한 불변 표현을 얻는다. 마지막으로, 형태 분류, 재구성, 등고선 회귀 실험을 통해 RotaTouille의 효과성을 입증한다.
LLM(대형 언어 모델)은 인간 중심의 추론 작업에서 강력한 성능을 보여왔습니다. 이전 평가들은 LLM이 의도를 추론하거나 속임수를 탐지할 수 있는지 탐구했지만, 종종 사회적 맥락에서 사람들이 어떻게 해석하고 행동하는지에 영향을 미치는 개별화된 추론 스타일을 간과했습니다. 사회적 추론 게임(SDG)은 개별화된 추론 스타일을 평가하기 위한 자연스러운 테스트베드를 제공하며, 동일한 조건에서도 다양한 플레이어들이 상황에 맞는 다양한 추론 전략을 채택할 수 있습니다. 이를 해결하기 위해, 우리는 LLM이 SDG에서 개인화된 추론 스타일을 포착하고 적용할 수 있는지를 평가하기 위해 인지적으로 기반을 둔 평가 프레임워크인 InMind를 소개합니다. InMind는 구조화된 게임 플레이 데이터에 라운드별 전략 추적과 게임 후 반영을 추가하며, 관찰자 모드와 참가자 모드에서 수집된 데이터를 활용합니다. 이 프레임워크는 정적 정렬과 동적 적응을 함께 평가하는 네 가지 인지적으로 동기 부여된 작업을 지원합니다. 사례 연구로서, 우리는 InMind를 Avalon 게임에 적용하여 11개의 최신 LLM을 평가했습니다. 범용 LLM, 심지어 GPT-4o도 자주 어휘적 단서에 의존하며, 시간적 게임 플레이에 반영을 고정하거나 진화하는 전략에 적응하는 데 어려움을 겪었습니다. 반면, DeepSeek-R1과 같은 추론 강화 LLM은 스타일 민감적 추론의 초기 징후를 보였습니다. 이러한 발견들은 현재 LLM의 개별화된 적응적 추론 능력의 주요 한계를 드러내며, InMind를 인지적으로 조정된 인간-AI 상호작용을 향한 한 걸음으로 위치시킵니다.
3D 인간 자세 및 형태 추정 분야에서 SMPLify는 반복적 최적화를 통해 역운동학(IK) 문제를 해결하는 견고한 기준선으로 남아 있습니다. 그러나 높은 계산 비용으로 인해 실용성이 제한됩니다. 최근 여러 분야에서의 발전은 반복적 최적화를 데이터 기반 신경망으로 대체함으로써 정확도를 희생하지 않고도 상당한 런타임 개선을 달성할 수 있음을 보여주었습니다. 이러한 추세에 영감을 받아, 우리는 SMPLify의 반복적 피팅 프로세스를 단일 패스 회귀 모델로 대체하는 신경망 프레임워크인 Learnable SMPLify를 제안합니다. 우리 프레임워크의 설계는 신경망 IK에서의 두 가지 핵심 과제인 데이터 구성과 일반화를 목표로 합니다. 효과적인 학습을 위해, 우리는 순차적 프레임에서 초기화-대상 쌍을 구성하는 시간적 샘플링 전략을 제안합니다. 다양한 동작과 보지 못한 자세에 대한 일반화를 개선하기 위해, 우리는 인간 중심의 정규화 기법과 잔차 학습을 제안하여 해 공간을 좁힙니다. Learnable SMPLify는 순차적 추론과 플러그인 후처리를 모두 지원하여 기존의 이미지 기반 추정기를 개선합니다. 광범위한 실험을 통해 우리의 방법이 실용적이고 간단한 기준선으로 자리 잡았음을 입증합니다: SMPLify에 비해 거의 200배 빠른 런타임을 달성하고, 보지 못한 3DPW 및 RICH 데이터셋에 잘 일반화되며, LucidAction에서 플러그인 도구로 사용될 때 모델-불가지론적 방식으로 작동합니다. 코드는 https://github.com/Charrrrrlie/Learnable-SMPLify에서 확인할 수 있습니다.
대규모 언어 모델(LLMs)의 광범위한 응용에서 추론 능력은 매우 중요한 역할을 합니다. LLMs의 추론 성능을 향상시키기 위해, 지도 미세 조정(SFT)만으로 훈련된 LLMs의 제한된 일반화 능력을 해결하기 위해 다양한 강화 학습(RL) 기반 미세 조정 접근법이 제안되었습니다. 이러한 접근법의 효과성에도 불구하고, LLMs의 발전을 저해하는 두 가지 주요 한계가 존재합니다. 첫째, 일반적인 RL 기반 접근법은 주석이 달린 사고의 연쇄(CoT)를 무시하고 불안정한 추론 경로 샘플링을 포함하여, 일반적으로 모델 붕괴, 불안정한 훈련 과정, 그리고 최적이 아닌 성능을 초래합니다. 둘째, 기존의 SFT 접근법은 일반적으로 주석이 달린 CoT를 과도하게 강조하여, 잠재적인 CoT의 충분한 활용 부족으로 인한 성능 저하를 초래할 수 있습니다. 본 논문에서는 이러한 한계를 해결하면서 LLMs의 추론 성능을 향상시키기 위해 주석이 달린 CoT 기반 강화 미세 조정 접근법, 즉 CARFT를 제안합니다. 구체적으로, 각 CoT에 대한 표현을 학습하는 것을 제안합니다. 이 표현을 기반으로, 미세 조정 과정을 안내하기 위한 새로운 대조 학습 신호를 설계합니다. 우리의 접근법은 사용 가능한 주석이 달린 CoT를 완전히 활용할 뿐만 아니라, 추가적인 비지도 학습 신호를 통합하여 미세 조정 절차를 안정화합니다. 세 가지 베이스라인 접근법, 두 가지 기초 모델, 그리고 두 가지 데이터셋을 사용한 포괄적인 실험과 심층 분석을 통해 CARFT의 견고성, 성능(최대 10.15%), 그리고 효율성(최대 30.62%) 측면에서의 상당한 이점을 입증합니다. 코드는 https://github.com/WNQzhu/CARFT에서 확인할 수 있습니다.
잘못된 프롬프트가 명백히 유해하지 않거나 유해한 출력을 유도하지 못할 경우, 탈옥 공격(jailbreak attack)을 평가하는 것은 어려운 과제입니다. 불행히도, 기존의 많은 레드 팀링(red-teaming) 데이터셋에는 이러한 부적합한 프롬프트가 포함되어 있습니다. 공격을 정확하게 평가하기 위해서는 이러한 데이터셋을 악의적 콘텐츠 여부에 따라 평가하고 정제해야 합니다. 그러나 기존의 악의적 콘텐츠 탐지 방법은 수동 주석 작업에 의존하거나, 대규모 언어 모델(LLM)을 사용하는데, 후자의 경우 유해 콘텐츠 유형에 대해 일관성 없는 정확도를 보입니다. 정확성과 효율성을 균형 있게 달성하기 위해, 우리는 LLM 기반 주석과 최소한의 인간 감독을 결합한 하이브리드 평가 프레임워크인 MDH(Malicious content Detection based on LLMs with Human assistance)를 제안하고, 이를 데이터셋 정제 및 탈옥 응답 탐지에 적용했습니다. 또한, 잘 구성된 개발자 메시지가 탈옥 성공률을 크게 높일 수 있다는 사실을 발견하여, 두 가지 새로운 전략을 제안합니다: 컨텍스트 시뮬레이션을 활용하는 D-Attack과 하이재킹된 사고의 연쇄(Chain of Thought)를 통합한 DH-CoT입니다. 코드, 데이터셋, 판단 결과 및 탐지 결과는 깃허브 저장소(https://github.com/AlienZhang1996/DH-CoT)에서 공개될 예정입니다.