번역이 포함된 일일 선별된 AI 연구 논문
과학적 대형 언어 모델(Sci-LLMs)은 과학 연구에서 지식이 표현, 통합 및 적용되는 방식을 혁신하고 있으나, 그 발전은 과학 데이터의 복잡한 특성에 의해 형성된다. 본 조사는 Sci-LLMs의 개발을 모델과 그 기반 데이터 기질 간의 공진화로 재구성하는 데이터 중심의 종합적 통합을 제시한다. 우리는 과학 데이터의 통일된 분류 체계와 과학 지식의 계층적 모델을 정립하며, 과학 코퍼스가 일반 자연어 처리 데이터셋과 구별되는 다중모드, 교차 규모 및 도메인 특화적 도전 과제를 강조한다. 우리는 최근의 Sci-LLMs를 체계적으로 검토하며, 일반적인 기반 모델부터 다양한 과학 분야의 특화 모델에 이르기까지, 270개 이상의 사전/사후 학습 데이터셋에 대한 광범위한 분석을 통해 Sci-LLMs가 왜 이질적이고 다중 규모적이며 불확실성이 가득한 코퍼스를 요구하며, 도메인 불변성을 보존하고 교차 모드 추론을 가능하게 하는 표현이 필요한지를 보여준다. 평가 측면에서는 190개 이상의 벤치마크 데이터셋을 검토하며, 정적 평가에서 과정 및 발견 지향적 평가로의 전환을 고급 평가 프로토콜과 함께 추적한다. 이러한 데이터 중심 분석은 과학 데이터 개발에서 지속적인 문제점을 강조하고, 반자동화 주석 파이프라인과 전문가 검증을 포함한 새로운 해결책을 논의한다. 마지막으로, Sci-LLMs 기반의 자율 에이전트가 능동적으로 실험하고 검증하며, 살아 움직이고 진화하는 지식 기반에 기여하는 폐쇄 루프 시스템으로의 패러다임 전환을 제시한다. 종합적으로, 이 작업은 과학적 발견을 가속화하는 진정한 파트너로서 기능하는 신뢰할 수 있고 지속적으로 진화하는 인공지능(AI) 시스템을 구축하기 위한 로드맵을 제공한다.
단계별 사고 능력을 갖춘 다중모달 대형 언어 모델(MLLM)은 복잡한 추론 문제에서 뛰어난 성능을 보여왔습니다. 그러나 단순한 문제의 경우 이러한 사고 과정은 불필요한 오버헤드를 초래합니다. 이러한 비효율성을 해결하기 위해, 우리는 문제의 복잡도에 따라 적응적으로 사고 여부를 결정할 수 있는 자동 사고 MLLM인 R-4B를 제안합니다. R-4B의 핵심 아이디어는 이중 모드 어닐링(annealing)을 통해 모델에 사고 모드와 비사고 모드 모두를 부여하고, Bi-mode Policy Optimization(BPO)을 적용하여 사고 과정 활성화 여부를 결정하는 모델의 정확도를 향상시키는 것입니다. 구체적으로, 먼저 다양한 주제를 아우르는 신중하게 선별된 데이터셋에서 모델을 학습시킵니다. 이 데이터셋은 사고 모드와 비사고 모드 샘플을 모두 포함합니다. 이후 개선된 GRPO 프레임워크 하에서 두 번째 학습 단계를 진행하며, 이때 정책 모델은 각 입력 쿼리에 대해 두 모드 모두에서 응답을 생성하도록 강제됩니다. 실험 결과, R-4B는 25개의 도전적인 벤치마크에서 최첨단 성능을 달성했습니다. 대부분의 작업에서 Qwen2.5-VL-7B를 능가했으며, 추론 집약적인 벤치마크에서는 Kimi-VL-A3B-Thinking-2506(16B)과 같은 더 큰 모델과 비슷한 성능을 더 낮은 계산 비용으로 달성했습니다.
개방된 세계에서 다중 모드 추론과 물리적 상호작용을 원활하게 수행하는 인간의 능력은 범용 구현 지능 시스템의 핵심 목표입니다. 최근 대규모 로봇 및 시각-텍스트 데이터를 공동 학습한 시각-언어-행동(VLA) 모델들은 일반 로봇 제어에서 주목할 만한 진전을 보여주었습니다. 그러나 이러한 모델들은 여전히 교차 추론과 상호작용에서 인간 수준의 유연성을 달성하지 못하고 있습니다. 본 연구에서는 EO-1 모델과 EO-Data1.5M 데이터셋으로 구성된 EO-Robotics를 소개합니다. EO-1은 교차 시각-텍스트-행동 사전 학습을 통해 다중 모드 구현 추론과 로봇 제어에서 우수한 성능을 달성하는 통합 구현 기반 모델입니다. EO-1의 개발은 두 가지 핵심 기둥에 기반합니다: (i) 이미지, 텍스트, 비디오, 행동 등 다중 모드 입력을 구분 없이 처리하는 통합 아키텍처, 그리고 (ii) 교차 시각-텍스트-행동 이해를 강조한 150만 개 이상의 샘플을 포함한 대규모 고품질 다중 모드 구현 추론 데이터셋인 EO-Data1.5M입니다. EO-1은 EO-Data1.5M에서 자동 회귀 디코딩과 흐름 매칭 노이즈 제거 간의 시너지를 통해 학습되어, 원활한 로봇 행동 생성과 다중 모드 구현 추론이 가능합니다. 다양한 장기적이고 정교한 조작 작업을 통해 검증된 실험들은 개방된 세계 이해와 일반화를 위한 교차 시각-텍스트-행동 학습의 효과를 입증합니다. 본 논문은 EO-1의 아키텍처, EO-Data1.5M의 데이터 구성 전략, 그리고 학습 방법론을 상세히 설명함으로써, 고급 구현 기반 모델 개발에 유용한 통찰을 제공합니다.
스케일링 법칙은 텍스트, 이미지, 비디오 영역에서 대규모 데이터로 훈련된 모델의 창의적 생성 성공과 가능성을 입증했습니다. 그러나 이러한 패러다임은 3D 영역에서 데이터 부족 문제에 직면해 있습니다. 인터넷 상에서 이용 가능한 3D 데이터는 앞서 언급된 모달리티에 비해 훨씬 적기 때문입니다. 다행히도, 상식적 사전 지식을 내재하고 있는 충분한 양의 비디오가 존재하며, 이는 제한된 3D 데이터로 인한 일반화 병목 현상을 완화하기 위한 대체 감독 신호를 제공합니다. 한편으로, 객체나 장면의 다중 뷰를 담은 비디오는 3D 생성을 위한 공간적 일관성 사전 지식을 제공합니다. 다른 한편으로, 비디오에 포함된 풍부한 의미 정보는 생성된 콘텐츠가 텍스트 프롬프트에 더 충실하고 의미적으로 타당하도록 만듭니다. 본 논문은 데이터셋부터 모델에 이르기까지 3D 자산 생성에 비디오 모달리티를 적용하는 방법을 탐구합니다. 우리는 다중 뷰 수준의 주석이 달린 최초의 대규모 비디오 데이터셋인 Droplet3D-4M를 소개하고, 이미지와 밀집 텍스트 입력을 모두 지원하는 생성 모델인 Droplet3D를 훈련시켰습니다. 광범위한 실험을 통해 우리의 접근 방식이 공간적으로 일관되고 의미적으로 타당한 콘텐츠를 생성할 수 있는 능력을 입증했습니다. 더 나아가, 기존의 3D 솔루션과 달리, 우리의 접근 방식은 장면 수준의 응용으로 확장할 수 있는 잠재력을 보여줍니다. 이는 비디오로부터 얻은 상식적 사전 지식이 3D 생성에 상당히 기여함을 나타냅니다. 우리는 데이터셋, 코드, 기술 프레임워크, 모델 가중치를 포함한 모든 리소스를 오픈소스로 공개했습니다: https://dropletx.github.io/.
소프트웨어 엔지니어링에서 대규모 언어 모델(LLM)의 활용이 증가함에 따라, 이들이 생성한 코드에 대한 엄격한 보안 평가가 필요해졌습니다. 그러나 기존 벤치마크는 고립된 코드 조각에 초점을 맞추고, 재현성이 부족한 불안정한 평가 방법을 사용하며, 입력 컨텍스트의 품질과 출력의 보안성을 연결하지 못하는 등 여러 한계를 보입니다. 이러한 격차를 해결하기 위해, 우리는 리포지토리 수준의 안전한 코드 생성을 위한 벤치마크인 A.S.E(AI Code Generation Security Evaluation)를 소개합니다. A.S.E는 CVE(Common Vulnerabilities and Exposures)가 문서화된 실제 리포지토리에서 작업을 구성하며, 빌드 시스템 및 파일 간 종속성과 같은 전체 리포지토리 컨텍스트를 보존합니다. 재현 가능한 컨테이너화된 평가 프레임워크는 전문가가 정의한 규칙을 사용하여 보안, 빌드 품질 및 생성 안정성에 대한 안정적이고 감사 가능한 평가를 제공합니다. A.S.E에서 주요 LLM을 평가한 결과, 세 가지 주요 발견을 얻었습니다: (1) Claude-3.7-Sonnet이 전반적으로 가장 우수한 성능을 보였습니다. (2) 독점 모델과 오픈소스 모델 간의 보안 격차는 좁으며, Qwen3-235B-A22B-Instruct가 최고 보안 점수를 달성했습니다. (3) 간결하고 "빠른 사고" 디코딩 전략이 복잡하고 "느린 사고" 추론보다 보안 패치에서 일관되게 더 나은 성능을 보였습니다.
대형 언어 모델(LLM)은 수학 및 코딩과 같은 복잡한 추론 작업에서 뛰어난 성능을 보이지만, 어린 아이들이 아무런 어려움 없이 수행하는 간단한 상호작용 작업에서는 종종 어려움을 겪습니다. 이러한 차이는 선언적 지식(무엇인지 아는 것)과 절차적 지식(어떻게 하는지 아는 것) 사이의 중요한 격차를 강조합니다. 전통적인 강화 학습(RL) 에이전트는 환경 상호작을 통해 절차적 지식을 습득할 수 있지만, 종종 블랙박스로 작동하며 상당한 양의 훈련 데이터를 필요로 합니다. 반면, LLM은 광범위한 세계 지식과 추론 능력을 갖추고 있지만, 이러한 정적 지식을 상호작용 환경에서의 동적 의사결정으로 효과적으로 전환하지 못합니다. 이러한 문제를 해결하기 위해, 우리는 게임 환경과의 직접적인 상호작을 통해 LLM이 절차적 이해를 개발할 수 있도록 하면서도, 그들의 본질적인 추론 및 설명 능력을 유지할 수 있는 새로운 프레임워크인 Think in Games(TiG)를 제안합니다. 구체적으로, TiG는 RL 기반 의사결정을 언어 모델링 작업으로 재구성합니다: LLM은 언어로 안내된 정책을 생성하며, 이는 환경 피드백을 기반으로 한 온라인 강화 학습을 통해 반복적으로 개선됩니다. 우리의 실험 결과는 TiG가 선언적 지식과 절차적 지식 사이의 격차를 성공적으로 메우며, 기존의 RL 방법에 비해 훨씬 적은 데이터와 계산 요구량으로 경쟁력 있는 성능을 달성함을 보여줍니다. 더욱이, TiG는 의사결정에 대한 단계별 자연어 설명을 제공함으로써 복잡한 상호작용 작업에서의 투명성과 해석 가능성을 크게 향상시킵니다.
오디오 기반의 말하는 얼굴 합성 기술은 놀라울 정도의 사실감을 달성했지만, 최첨단(SOTA) 모델들은 중요한 결함을 보입니다: 이들은 인종, 언어, 연령대 등 인간의 다양성 전체를 포괄하는 일반화 능력이 부족합니다. 우리는 이러한 일반화 격차가 기존 훈련 데이터의 한계에서 비롯된 직접적인 증상이라고 주장합니다. 기존 데이터는 필요한 규모, 품질, 다양성을 갖추지 못했습니다. 이 문제를 해결하기 위해 우리는 7729명의 고유한 화자로부터 1244시간 분량의 비디오를 포함한 새로운 대규모, 고품질, 다양한 데이터셋인 TalkVid를 소개합니다. TalkVid는 움직임 안정성, 미적 품질, 얼굴 디테일을 엄격히 필터링하는 원칙 기반의 다단계 자동화 파이프라인을 통해 선별되었으며, 신뢰성을 보장하기 위해 인간의 판단에 대해 검증되었습니다. 더불어, 우리는 주요 인구통계학적 및 언어적 축에 걸쳐 세심하게 균형을 맞춘 500개의 클립으로 구성된 TalkVid-Bench 평가 세트를 구축하고 공개합니다. 우리의 실험은 TalkVid로 훈련된 모델이 이전 데이터셋으로 훈련된 모델들을 능가하며, 우수한 크로스 데이터셋 일반화 능력을 보여줍니다. 특히, TalkVid-Bench에 대한 분석은 전통적인 집계 지표에서는 드러나지 않는 하위 그룹 간의 성능 차이를 밝혀내며, 향후 연구를 위한 이 평가 세트의 필요성을 강조합니다. 코드와 데이터는 https://github.com/FreedomIntelligence/TalkVid에서 확인할 수 있습니다.
언어 모델의 사전 학습에 사용되는 데이터 혼합은 최종 성능의 초석이 됩니다. 그러나 정적 혼합 전략은 최적이 아닌데, 이는 모델의 다양한 데이터 도메인에 대한 학습 선호도가 훈련 과정에서 동적으로 변화하기 때문입니다. 특히, 이러한 진화하는 선호도를 계산적으로 효율적으로 관찰하는 것은 여전히 중요한 과제로 남아 있습니다. 이를 해결하기 위해, 우리는 모델의 진화하는 선호도에 따라 데이터 혼합을 동적으로 조정하는 TiKMiX 방법을 제안합니다. TiKMiX는 데이터 도메인이 모델에 미치는 영향을 평가하기 위한 효율적인 지표인 그룹 영향력(Group Influence)을 도입합니다. 이 지표는 데이터 혼합 문제를 최적의 영향력 극대화 분포를 탐색하는 문제로 공식화할 수 있게 합니다. 우리는 이를 두 가지 접근 방식으로 해결합니다: 직접 최적화를 수행하는 TiKMiX-D와, 더 나은 혼합을 예측하기 위해 회귀 모델을 사용하는 TiKMiX-M입니다. 우리는 최대 1조 개의 토큰을 사용하여 다양한 파라미터 수의 모델을 훈련했습니다. TiKMiX-D는 REGMIX와 같은 최첨단 방법의 성능을 능가하면서도 단 20%의 계산 자원만을 사용합니다. TiKMiX-M은 9개의 다운스트림 벤치마크에서 평균 2%의 성능 향상을 이끌어냅니다. 우리의 실험은 모델의 데이터 선호도가 훈련 진행과 규모에 따라 진화함을 보여주며, 이러한 선호도를 직접 측정하는 그룹 영향력을 기반으로 데이터 혼합을 동적으로 조정함으로써 정적 비율에서 관찰된 데이터의 소화 부족을 완화하고 성능을 크게 개선할 수 있음을 입증합니다.
jina-code-embeddings는 자연어 쿼리로부터 코드를 검색하고, 기술적 질문에 답변하며, 프로그래밍 언어 간에 의미적으로 유사한 코드 스니펫을 식별하기 위해 설계된 새로운 코드 임베딩 모델 제품군입니다. 이 모델은 텍스트와 코드 모두에 대해 사전 학습된 자기회귀적 백본을 혁신적으로 활용하며, 마지막 토큰 풀링을 통해 임베딩을 생성합니다. 우리는 훈련 레시피를 설명하고, 상대적으로 작은 모델 크기에도 불구하고 최첨단 성능을 입증함으로써 코드 임베딩 모델 구축에 대한 이 접근 방식을 검증합니다.
GUI 에이전트는 모바일/PC 기기에서의 자동화된 작업 수행을 목표로 하며, 이는 인공 일반 지능(AGI) 달성을 위한 중요한 과제입니다. 시각적 이해와 작업 계획에 있어 강력한 능력을 보이는 VLM(Vision-Language Model)의 급속한 발전은 GUI 에이전트 개발을 가속화하고 있습니다. 그러나 작업 궤적의 부족, 상호작용 인프라의 가용성, 그리고 기초 모델의 초기 능력 한계로 인해 GUI 에이전트 구축은 여전히 도전적인 과제로 남아 있습니다. 본 연구에서는 자동화 GUI 에이전트를 위한 오픈소스 기초 모델인 UItron을 소개합니다. UItron은 고급 GUI 인지, 그라운딩, 그리고 계획 능력을 특징으로 하며, GUI 에이전트 개발을 위한 시스템적 데이터 엔지니어링과 상호작용 인프라의 필요성을 강조합니다. UItron은 훈련 효과를 향상시키기 위한 일련의 데이터 엔지니어링 전략을 체계적으로 연구할 뿐만 아니라, 모바일과 PC 기기를 연결하는 상호작용 환경을 구축합니다. 훈련 과정에서 UItron은 다양한 GUI 시나리오에서의 인지 및 계획 작업에 대한 지도 미세 조정을 채택하고, 온라인 환경에서의 복잡한 추론과 탐색을 가능하게 하는 커리큘럼 강화 학습 프레임워크를 개발합니다. 그 결과, UItron은 GUI 인지, 그라운딩, 그리고 계획 벤치마크에서 우수한 성능을 달성합니다. 특히, UItron은 최신 솔루션에서도 일반적으로 부족한 중국어 능력을 보완하며, 상위권 중국 모바일 앱과의 상호작용 숙련도를 강조합니다. 이를 위해 상위 100개 인기 앱에서 100만 단계 이상의 작업 궤적을 수동으로 수집하고, 오프라인 및 온라인 에이전트 평가 환경을 구축했습니다. 실험 결과는 UItron이 중국 앱 시나리오에서 상당한 진전을 이루며, GUI 에이전트가 실제 세계 적용에 한 걸음 더 가까워졌음을 보여줍니다.
오디오-언어 모델(ALMs)의 평가는 표준화된 벤치마크의 부재로 인해 어려움을 겪고 있다. 오디오와 텍스트가 교차된 입력을 받아 텍스트를 출력하는 멀티모달 모델인 ALMs의 경우, 대부분의 벤치마크는 단 한두 가지 기능만을 측정하며 공정성이나 안전성과 같은 평가적 측면을 생략한다. 또한, 별도의 평가들은 제한된 수의 모델만을 테스트하고 서로 다른 프롬프트 방법과 추론 파라미터를 사용하기 때문에 모델 간의 비교가 어렵다. 이러한 문제를 해결하기 위해, 우리는 AHELM이라는 벤치마크를 소개한다. AHELM은 다양한 데이터셋을 통합하며, 특히 스테레오타입 회피를 평가하는 PARADE와 대화형 오디오에 대한 추론을 다중 턴 질의응답을 통해 측정하는 CoRe-Bench라는 두 가지 새로운 합성 오디오-텍스트 데이터셋을 포함한다. 이를 통해 ALMs의 개발과 사용에 중요한 10가지 측면(오디오 인지, 지식, 추론, 감정 감지, 편향, 공정성, 다국어 지원, 견고성, 유해성, 안전성)을 종합적으로 측정한다. 또한, 모델 간의 공정한 비교를 위해 프롬프트, 추론 파라미터, 평가 메트릭을 표준화했다. 우리는 3개 개발사의 14개 오픈 웨이트 및 클로즈드 API ALMs와 각각 자동 음성 인식기와 언어 모델로 구성된 3개의 간단한 베이스라인 시스템을 테스트했다. 결과에 따르면, Gemini 2.5 Pro가 10개 측면 중 5개에서 최고 순위를 차지했지만, ASR 작업에서 그룹 불공정성(p=0.01)을 보인 반면 대부분의 다른 모델들은 그렇지 않았다. 또한, 베이스라인 시스템들이 AHELM에서 상당히 잘 수행되었으며, 하나의 시스템이 음성-텍스트 기능만 갖추고도 전체 5위를 차지했다. 투명성을 위해 모든 원시 프롬프트, 모델 생성물, 출력물은 https://crfm.stanford.edu/helm/audio/v1.0.0에서 확인할 수 있다. AHELM은 지속적으로 업데이트되는 벤치마크로, 새로운 데이터셋과 모델이 시간이 지남에 따라 추가될 예정이다.
대규모 언어 모델(LLM)에 강화 학습(RL)을 적용한 최근의 발전은 상당한 진전을 이뤄냈습니다. 특히, LLM에서 전통적인 RL 환경에서는 일반적으로 관찰되지 않는 패턴을 보이는 일련의 주목할 만하면서도 종종 직관에 반하는 현상들이 보고되었습니다. 예를 들어, 단일 훈련 예제가 전체 데이터셋을 사용한 성능과 맞먹을 수 있다는 주장, 보상 신호가 매우 정확할 필요가 없다는 주장, 그리고 부정적 샘플만으로 훈련해도 정교한 보상 기반 방법을 능가하거나 그에 필적할 수 있다는 주장 등이 있습니다. 그러나 이러한 관찰이 성립하는 정확한 조건과, 더욱 중요한 것은 언제 실패하는지에 대해서는 여전히 명확하지 않습니다. 본 연구에서 우리는 RL 관찰을 구분하는 핵심 요소를 규명했습니다: 사전 훈련된 모델이 평가된 작업에서 pass@k 정확도로 측정된 강력한 모델-작업 정렬(Model-Task Alignment)을 이미 보이는지 여부입니다. 다양한 모델 아키텍처와 작업 영역에 걸친 엄격한 실험적 검증을 통해 일련의 직관에 반하는 주장들을 체계적이고 포괄적으로 검토한 결과, 표준 RL 훈련은 설정에 관계없이 일관되게 견고한 반면, 이러한 직관에 반하는 결과들은 모델과 작업이 이미 강력한 모델-작업 정렬을 보일 때만 발생한다는 것을 발견했습니다. 반대로, 이러한 기술들은 더 어려운 환경에서는 상당한 학습을 이끌어내지 못하며, 이 경우 표준 RL 방법이 여전히 효과적입니다.
대칭성은 컴퓨터 비전에서 가장 근본적인 기하학적 단서 중 하나이며, 이를 탐지하는 것은 지속적인 과제로 남아 있습니다. 최근 비전-언어 모델, 특히 CLIP의 발전에 따라, 우리는 사전 훈련된 CLIP 모델이 자연 이미지 설명에서 발견되는 추가적인 대칭성 단서를 활용하여 대칭성 탐지를 지원할 수 있는지 조사합니다. 우리는 CLIP의 이미지 및 언어 인코더와 Transformer와 G-Convolution의 하이브리드 기반의 회전 등변 디코더를 활용하여 회전 및 반사 대칭성을 탐지하는 CLIPSym을 제안합니다. CLIP의 언어 인코더를 최대한 활용하기 위해, 우리는 다양한 빈도 기반 객체 프롬프트를 집계하여 대칭성 탐지를 위한 의미론적 단서를 더 잘 통합하는 새로운 프롬프트 기법인 Semantic-Aware Prompt Grouping(SAPG)을 개발했습니다. 실험적으로, CLIPSym이 세 가지 표준 대칭성 탐지 데이터셋(DENDI, SDRW, LDRS)에서 현재 최첨단 기술을 능가함을 보여줍니다. 마지막으로, CLIP의 사전 훈련, 제안된 등변 디코더, 그리고 SAPG 기법의 이점을 검증하는 상세한 어블레이션 연구를 수행합니다. 코드는 https://github.com/timyoung2333/CLIPSym에서 확인할 수 있습니다.
사용자 인터페이스(UI) 에이전트는 시각 장애인 및 저시력(BLV) 사용자들이 접근하기 어렵거나 복잡한 UI를 더 쉽게 이용할 수 있도록 돕는 가능성을 보여줍니다. 그러나 현재의 UI 에이전트는 일반적으로 사용자를 중요한 선택 과정에 포함시키거나 중요한 상황 정보를 알리지 않고 종단 간 작업을 수행함으로써 사용자의 주체성을 감소시킵니다. 예를 들어, 우리의 현장 연구에서 한 BLV 참가자가 가장 저렴한 탄산수를 구매하도록 요청했을 때, 에이전트는 동일한 가격대의 여러 옵션 중 하나를 자동으로 선택했으며, 다른 맛이나 더 나은 평점을 가진 대체 제품에 대해 언급하지 않았습니다. 이 문제를 해결하기 위해, 우리는 작업 실행 중에 결정 지점을 자동으로 식별하고 사용자가 선택을 할 수 있도록 일시 정지하는 UI 에이전트인 Morae를 소개합니다. Morae는 대규모 멀티모달 모델을 사용하여 사용자 쿼리와 UI 코드 및 스크린샷을 해석하고, 선택이 필요한 경우 사용자에게 명확히 요청합니다. BLV 참가자들과 함께 실제 웹 작업에 대한 연구에서 Morae는 사용자가 더 많은 작업을 완료하고 선호도에 더 잘 맞는 옵션을 선택하도록 돕는 것으로 나타났으며, 이는 OpenAI Operator를 포함한 기준 에이전트와 비교했을 때 더 나은 성과를 보였습니다. 더 넓은 관점에서, 이 작업은 사용자가 UI 에이전트의 자동화로부터 혜택을 받으면서도 자신의 선호도를 표현할 수 있는 혼합 주도적 접근 방식을 구현한 사례입니다.
실세계 관측 데이터로부터 물리 법칙을 자동으로 발견하는 것은 AI 분야의 주요 도전 과제입니다. 현재의 방법들은 기호 회귀(symbolic regression)나 대형 언어 모델(LLMs)에 의존하며, 단일 모드 데이터에 국한되어 물리학자들에게 필수적인 풍부한 시각적 현상학적 운동 표현을 간과하고 있습니다. 이러한 "감각 박탈"은 동적 현상 내의 고유한 시공간 패턴을 해석하는 능력을 심각하게 약화시킵니다. 이러한 격차를 해결하기 위해, 우리는 VIPER-R1이라는 다중 모드 모델을 제안합니다. 이 모델은 시각적 인식을 통한 물리 기반 방정식 추론(Visual Induction for Physics-based Equation Reasoning)을 수행하여 근본적인 기호 공식을 발견합니다. 이 모델은 시각적 지각, 궤적 데이터, 그리고 기호 추론을 통합하여 과학적 발견 과정을 모방합니다. 이 모델은 운동 구조 유도(Motion Structure Induction, MSI) 커리큘럼을 통해 훈련되며, 지도 미세 조정(supervised fine-tuning)을 사용하여 운동학적 위상 도형(kinematic phase portraits)을 해석하고 인과적 사고 사슬(Causal Chain of Thought, C-CoT)에 의해 가이드된 가설을 구성합니다. 이후 강화 학습을 통해 공식 구조를 정제하는 보안 기호 보정(Reward-Guided Symbolic Calibration, RGSC)이 수행됩니다. 추론 과정에서 훈련된 VIPER-R1은 에이전트로 작동합니다: 먼저 높은 신뢰도를 가진 기호적 추정치(symbolic ansatz)를 제시한 후, 외부 기호 회귀 도구를 적극적으로 호출하여 기호 잔차 재조정(Symbolic Residual Realignment, SR^2)을 수행합니다. 이 최종 단계는 물리학자의 섭동 분석(perturbation analysis)과 유사하며, 이론적 모델과 경험적 데이터를 조정합니다. 이 연구를 지원하기 위해, 우리는 새로운 5,000개의 다중 모드 코퍼스인 PhysSymbol을 소개합니다. 실험 결과, VIPER-R1은 정확성과 해석 가능성 면에서 최첨단 시각 언어 모델(VLM) 기준선을 지속적으로 능가하며, 더 정밀한 물리 법칙 발견을 가능하게 합니다. 프로젝트 페이지: https://jiaaqiliu.github.io/VIPER-R1/
에코 상태 네트워크(Echo State Networks, ESNs)는 저수지 컴퓨팅(Reservoir Computing, RC) 프레임워크 내에서 학습이 필요 없는 순환 신경망(Recurrent Neural Networks, RNNs)의 특수한 유형으로, 빠르고 효율적인 학습 능력으로 인해 널리 사용된다. 그러나 전통적인 ESN은 장기간 정보 처리에 어려움을 겪는 경우가 많다. 본 논문에서는 시간적 잔차 연결(temporal residual connections)을 기반으로 한 새로운 종류의 심층 비학습 순환 신경망인 심층 잔차 에코 상태 네트워크(Deep Residual Echo State Networks, DeepResESNs)를 소개한다. 우리는 비학습 잔차 순환 계층의 계층적 구조를 활용함으로써 메모리 용량과 장기간 시간적 모델링 능력이 크게 향상됨을 보여준다. 시간적 잔차 연결을 위해 무작위로 생성된 구성과 고정 구조 구성 등 다양한 직교 구성을 고려하고, 이들이 네트워크 동역학에 미치는 영향을 연구한다. 심층 잔차 에코 상태 네트워크 내에서 안정적인 동역학을 보장하기 위한 필요충분조건을 수학적으로 분석한다. 다양한 시계열 작업에 대한 실험을 통해 제안된 접근법이 전통적인 얕은 및 심층 RC보다 우수함을 입증한다.
인간의 움직임 데이터를 활용하여 로봇에 다재다능한 조작 기술을 부여하는 것은 로봇 조작 분야에서 유망한 패러다임으로 부상하고 있습니다. 그러나 다중 소스의 인간 손 움직임을 실행 가능한 로봇 행동으로 변환하는 것은 여전히 어려운 과제로 남아 있으며, 특히 복잡하고 고차원적인 동작 공간을 특징으로 하는 다중 손가락 민첩한 손을 장착한 로봇의 경우 더욱 그러합니다. 더욱이, 기존 접근 방식은 다양한 환경 조건에 적응할 수 있는 정책을 생성하는 데 어려움을 겪는 경우가 많습니다. 본 논문에서는 모바일 양손 민첩 조작을 위한 인간-로봇 학습 프레임워크인 HERMES를 소개합니다. 먼저, HERMES는 다중 소스의 이질적인 인간 손 움직임을 물리적으로 타당한 로봇 행동으로 원활하게 변환할 수 있는 통합 강화 학습 접근법을 제안합니다. 다음으로, 시뮬레이션에서 실제로의 격차(sim2real gap)를 줄이기 위해, 실제 시나리오에서의 일반화를 개선하기 위한 종단 간(end-to-end) 깊이 이미지 기반 sim2real 전이 방법을 설계합니다. 또한, 다양하고 비정형적인 환경에서의 자율 작동을 가능하게 하기 위해, 시각적 목표의 정확한 정렬을 보장하고 자율 주행과 민첩한 조작을 효과적으로 연결하는 폐루프 Perspective-n-Point (PnP) 위치 결정 메커니즘을 내비게이션 기반 모델에 추가합니다. 광범위한 실험 결과는 HERMES가 다양한 실제 시나리오에서 일반화 가능한 행동을 일관되게 보여주며, 수많은 복잡한 모바일 양손 민첩 조작 작업을 성공적으로 수행함을 입증합니다. 프로젝트 페이지: https://gemcollector.github.io/HERMES/.
훈련 후 양자화(PTQ)는 YOLO와 같은 객체 탐지 모델을 자원이 제한된 장치에 효율적으로 배포하는 데 필수적입니다. 그러나 낮은 정밀도가 노이즈, 블러, 압축 아티팩트와 같은 실제 입력 열화에 대한 모델의 견고성에 미치는 영향은 중요한 문제입니다. 본 논문은 FP32, FP16(TensorRT), Dynamic UINT8(ONNX), Static INT8(TensorRT) 등 다양한 정밀도 형식에서 YOLO 모델(nano부터 extra-large 크기까지)의 견고성을 평가한 포괄적인 실험 연구를 제시합니다. 또한, Static INT8 PTQ를 위한 열화 인지 보정 전략을 소개하고 평가합니다. 이 전략에서는 TensorRT 보정 과정에 깨끗한 이미지와 합성적으로 열화된 이미지를 혼합하여 노출시킵니다. 모델은 COCO 데이터셋에서 7가지의 서로 다른 열화 조건(다양한 유형과 수준의 노이즈, 블러, 낮은 대비, JPEG 압축 등)과 혼합 열화 시나리오 하에서 벤치마크되었습니다. 결과에 따르면, Static INT8 TensorRT 엔진은 깨끗한 데이터에서 상당한 속도 향상(~1.5-3.3배)과 중간 정도의 정확도 하락(~3-7% mAP50-95)을 제공하지만, 제안된 열화 인지 보정은 대부분의 모델과 열화 조건에서 표준 깨끗한 데이터 보정에 비해 일관적이고 광범위한 견고성 개선을 가져오지는 못했습니다. 특정 노이즈 조건에서 더 큰 모델 크기에 대해 주목할 만한 예외가 관찰되었으며, 이는 모델 용량이 이 보정 접근법의 효능에 영향을 미칠 수 있음을 시사합니다. 이러한 발견들은 PTQ 견고성을 향상시키는 데 있어서의 어려움을 강조하고, 제어되지 않은 환경에서 양자화된 탐지기를 배포하기 위한 통찰을 제공합니다. 모든 코드와 평가 테이블은 https://github.com/AllanK24/QRID에서 확인할 수 있습니다.
매년 대부분의 교육 기관은 학생들로부터 강좌, 교수법, 그리고 전반적인 경험에 대한 방대한 양의 텍스트 피드백을 수집합니다. 그러나 이러한 원시 피드백을 유용한 통찰로 전환하는 것은 결코 간단하지 않습니다. 교육 리뷰 텍스트 데이터에 대한 자동화된 의견 마이닝 솔루션을 도입하는 것은 내용의 복잡성과 세분화된 보고 요구 사항으로 인해 오랜 기간 동안 어려운 과제로 남아 있었습니다. Aspect 기반 감정 분석(ABSA)은 하위 문장 수준의 풍부한 의견 마이닝 기능을 통해 유망한 해결책을 제공합니다. 그러나 기존의 ABSA 연구와 자원은 상업적 영역에 지나치게 집중되어 있습니다. 교육 분야에서는 공개 데이터셋의 부족과 엄격한 데이터 보호로 인해 ABSA 자원이 부족하고 개발하기 어렵습니다. 이와 같은 자원이 부족한 분야에서 연구를 진전시키기 위해서는 고품질의 주석이 달린 데이터셋이 시급히 필요합니다. 본 연구에서는 EduRABSA(Education Review ABSA)를 소개합니다. 이는 영어로 작성된 세 가지 리뷰 주제 유형(강좌, 교직원, 대학)과 암묵적 측면 및 암묵적 의견 추출을 포함한 모든 주요 ABSA 작업을 다루는 최초의 공개 주석 ABSA 교육 리뷰 데이터셋입니다. 또한 ASQE-DPT(Data Processing Tool)를 공유합니다. 이는 오프라인에서 작동하며 가볍고 설치가 필요 없는 수동 데이터 주석 도구로, 단일 작업 주석에서 포괄적인 ABSA 작업을 위한 레이블이 달린 데이터셋을 생성합니다. 이러한 자원들은 데이터셋 장벽을 제거하고 연구의 투명성과 재현성을 지원하며 추가 자원의 생성과 공유를 가능하게 함으로써 ABSA 커뮤니티와 교육 분야에 기여합니다. 데이터셋, 주석 도구, 그리고 데이터셋 처리 및 샘플링을 위한 스크립트와 통계는 https://github.com/yhua219/edurabsa_dataset_and_annotation_tool에서 확인할 수 있습니다.