번역이 포함된 일일 선별된 AI 연구 논문
LLM(대형 언어 모델)은 장기 사고 체인(long chain-of-thought)을 활용한 강화 학습을 통해 강력한 수학적 추론 능력을 보여주었으나, 자연어만을 사용할 때 명확한 감독 신호가 부족하여 정리 증명(theorem proving)에는 여전히 어려움을 겪고 있습니다. Lean과 같은 전용 도메인 특화 언어는 형식적 검증을 통해 명확한 감독을 제공하며, 이를 통해 강화 학습을 통한 효과적인 훈련이 가능합니다. 본 연구에서는 Seed-Prover라는 보조 정리(lemma) 스타일의 전체 증명 추론 모델을 제안합니다. Seed-Prover는 Lean의 피드백, 증명된 보조 정리, 그리고 자기 요약(self-summarization)을 기반으로 반복적으로 증명을 개선할 수 있습니다. IMO(국제 수학 올림피아드) 수준의 문제를 해결하기 위해, 우리는 깊고 넓은 추론을 가능하게 하는 세 가지 테스트 시 추론 전략을 설계했습니다. Seed-Prover는 형식화된 과거 IMO 문제의 78.1%를 증명하고, MiniF2F를 포화시키며, PutnamBench에서 50% 이상의 성적을 달성하여 기존 최신 기술을 크게 능가합니다. Lean에서 기하학 지원이 부족한 문제를 해결하기 위해, 우리는 Seed-Geometry라는 기하학 추론 엔진을 도입했으며, 이는 기존의 형식적 기하학 엔진을 능가하는 성능을 보여줍니다. 우리는 이 두 시스템을 사용하여 IMO 2025에 참가하여 6문제 중 5문제를 완전히 증명했습니다. 이 연구는 자동화된 수학적 추론에서의 중요한 진전을 나타내며, 장기 사고 체인 추론과 형식적 검증의 효과를 입증합니다.
다중 모드 추론 모델의 발전과 함께, "아이언맨"의 자비스와 유사한 컴퓨터 사용 에이전트(Computer Use Agents, CUAs)가 현실화되고 있습니다. GUI 그라운딩은 로봇공학에서의 기계적 제어와 마찬가지로 CUAs가 실제 동작을 실행하기 위한 핵심 구성 요소이며, 이는 시스템의 성공 또는 실패로 직접 이어집니다. 이는 클릭 및 타이핑과 같은 동작뿐만 아니라 클릭 좌표와 같은 관련 매개변수도 결정합니다. 현재의 종단 간 그라운딩 모델은 여전히 ScreenSpot-pro 및 UI-Vision과 같은 도전적인 벤치마크에서 65% 미만의 정확도를 달성하며, 이는 배포 준비가 아직 멀었음을 나타냅니다. 본 연구에서는 그라운딩 모델의 훈련에 대한 실증 연구를 수행하여 데이터 수집부터 모델 훈련까지의 세부 사항을 검토했습니다. 궁극적으로, 우리는 에이전트 설정에서 10B 미만의 매개변수를 가진 모델들 중 모든 다섯 가지 그라운딩 벤치마크에서 최첨단 성능을 달성하는 Phi-Ground 모델 패밀리를 개발했습니다. 종단 간 모델 설정에서도 우리의 모델은 ScreenSpot-pro에서 \textbf{43.2}, UI-Vision에서 \textbf{27.2}의 점수로 SOTA 결과를 달성했습니다. 우리는 이 논문에서 논의된 다양한 세부 사항과 우리의 성공 및 실패가 그라운딩 모델의 구성을 명확히 할 뿐만 아니라 다른 인식 작업에도 도움이 될 것이라고 믿습니다. 프로젝트 홈페이지: https://zhangmiaosen2000.github.io/Phi-Ground/{https://zhangmiaosen2000.github.io/Phi-Ground/}
음성 대화 모델(Spoken Dialogue Models, SDMs)은 최근 사용자의 음성 질문에 직접 음성 응답을 생성할 수 있는 능력으로 인해 상당한 주목을 받고 있다. 그러나 이러한 모델의 인기가 증가함에도 불구하고, 인간 대화를 이해하고 모방하는 데 있어서의 실질적인 효과를 포괄적으로 이해하기 위한 연구는 여전히 부족한 실정이다. 이는 특히 광범위한 벤치마킹을 통해 이점을 누리는 텍스트 기반 대형 언어 모델(Large Language Models, LLMs)과 비교할 때 더욱 두드러진다. 인간의 음성 상호작용은 음성 대화에 고유한 특성으로 인해 텍스트보다 본질적으로 더 복잡하다. 모호성은 다의어와 같은 의미론적 요인뿐만 아니라 이형어, 이음동의어, 강세 패턴과 같은 음운론적 측면에서 비롯된 하나의 도전 과제이다. 또한, 생략, 공참조, 다중 턴 상호작용과 같은 맥락 의존성은 인간 대화 역학에 추가적인 복잡성을 더한다. 이러한 도전 과제를 해결하고 SDM 개발의 현재 상태를 조명하기 위해, 본 논문에서는 영어와 중국어로 구성된 1,079개의 사례를 포함한 벤치마크 데이터셋을 제시한다. 인간의 판단과 밀접하게 일치하는 LLM 기반 평가 방법과 함께, 이 데이터셋은 SDM이 이러한 실질적인 도전 과제를 해결하는 데 있어서의 성능을 포괄적으로 탐구할 수 있도록 한다.
추천 시스템은 사용자, 판매자, 플랫폼을 연결하는 중요한 인프라로서, 인공지능의 가장 영향력 있는 응용 분야 중 하나입니다. 그러나 현재 대부분의 산업용 시스템은 여전히 과거의 동시 발생 패턴과 로그 피팅 목표, 즉 사용자 의도를 명시적으로 모델링하지 않고 과거 사용자 상호작용을 최적화하는 방식에 크게 의존하고 있습니다. 이러한 로그 피팅 접근 방식은 좁은 범위의 과거 선호도에 과적합되는 경향이 있어 사용자의 변화하는 잠재적 관심사를 포착하지 못합니다. 결과적으로, 이는 필터 버블과 롱테일 현상을 강화하며, 궁극적으로 사용자 경험을 해치고 전체 추천 생태계의 지속 가능성을 위협합니다. 이러한 문제를 해결하기 위해, 우리는 추천 시스템의 전반적인 설계 패러다임을 재고하고 사용자 의도를 추천 파이프라인의 중심에 두는 차세대 프레임워크인 RecGPT를 제안합니다. RecGPT는 대규모 언어 모델(LLM)을 사용자 관심사 탐색, 아이템 검색, 설명 생성의 주요 단계에 통합함으로써 로그 피팅 기반 추천을 의도 중심 프로세스로 전환합니다. 범용 LLM을 위와 같은 도메인 특화 추천 작업에 효과적으로 대규모로 정렬하기 위해, RecGPT는 인간-LLM 협력 판단 시스템의 지도 하에 추론 강화 사전 정렬과 자기 훈련 진화를 통합한 다단계 훈련 패러다임을 도입합니다. 현재 RecGPT는 타오바오 앱에 완전히 배포되었습니다. 온라인 실험 결과, RecGPT는 모든 이해관계자에게 일관된 성능 향상을 달성함을 보여줍니다: 사용자는 콘텐츠 다양성과 만족도 증가의 혜택을, 판매자와 플랫폼은 더 큰 노출과 전환율의 혜택을 얻습니다. 이러한 모든 이해관계자에 걸친 포괄적인 개선 결과는 LLM 기반의 의도 중심 설계가 더 지속 가능하고 상호 이익을 창출하는 추천 생태계를 조성할 수 있음을 검증합니다.
시각-언어-행동(Visual-Language-Action, VLA) 모델은 언어 지시를 따르고 새로운 시나리오에 일반화할 수 있는 로봇 조작 정책을 학습하기 위한 인기 있는 패러다임으로 부상했습니다. 최근 연구에서는 두 프레임 간의 시각적 변화를 추상적으로 표현하는 잠재 행동(latent action)을 VLA 사전 학습에 통합하는 방식을 탐구하기 시작했습니다. 본 논문에서는 일반화 가능한 로봇 조작 정책 학습을 위한 잠재 행동 모델링을 발전시킨 새로운 시각-언어-잠재-행동(Visual-Language-Latent-Action, ViLLA) 프레임워크인 villa-X를 소개합니다. 우리의 접근 방식은 잠재 행동이 학습되는 방식과 이를 VLA 사전 학습에 통합하는 방식을 모두 개선합니다. 이러한 기여를 통해 villa-X는 SIMPLER 및 LIBERO를 포함한 시뮬레이션 환경과 그리퍼 및 정교한 손 조작을 포함한 두 가지 실제 로봇 설정에서 우수한 성능을 달성할 수 있습니다. 우리는 ViLLA 패러다임이 상당한 잠재력을 가지고 있으며, villa-X가 향후 연구를 위한 견고한 기반을 제공한다고 믿습니다.
피드포워드(feed-forward) 3D 모델링은 빠르고 고품질의 3D 재구성을 위한 유망한 접근 방식으로 부상하고 있습니다. 특히, 3D 가우시안 스플래팅(3D Gaussian splatting)과 같은 명시적 3D 표현을 직접 생성하는 방법은 빠르고 고품질의 렌더링 능력과 다양한 응용 가능성으로 인해 상당한 주목을 받고 있습니다. 그러나 트랜스포머(transformer) 아키텍처를 기반으로 한 많은 최신 방법들은 다중 입력 뷰의 이미지 토큰들 간의 완전한 어텐션(full attention)에 의존하기 때문에, 뷰의 수나 이미지 해상도가 증가함에 따라 계산 비용이 급증하는 심각한 확장성 문제를 겪고 있습니다. 확장성과 효율성을 갖춘 피드포워드 3D 재구성을 위해, 우리는 반복적 정제 메커니즘을 통해 3D 가우시안 표현을 생성하는 반복적 대형 3D 재구성 모델(iLRM)을 제안합니다. 이 모델은 세 가지 핵심 원칙에 기반합니다: (1) 장면 표현을 입력 뷰 이미지와 분리하여 간결한 3D 표현을 가능하게 함, (2) 완전 어텐션 기반의 다중 뷰 상호작용을 두 단계의 어텐션 체계로 분해하여 계산 비용을 줄임, (3) 모든 레이어에서 고해상도 정보를 주입하여 고품질 재구성을 달성함. RE10K 및 DL3DV와 같은 널리 사용되는 데이터셋에서의 실험 결과는 iLRM이 재구성 품질과 속도 모두에서 기존 방법들을 능가함을 보여줍니다. 특히, iLRM은 더 많은 수의 입력 뷰를 효율적으로 활용함으로써 동일한 계산 비용 하에서도 훨씬 더 높은 재구성 품질을 제공하는 우수한 확장성을 보입니다.
강화학습(Reinforcement Learning, RL)은 언어 모델링 분야에서 주목할 만한 성과를 거두었으나, 이러한 성공이 아직까지 시각운동 에이전트(visuomotor agents)로 완전히 확장되지는 못하고 있다. RL 모델의 주요 과제 중 하나는 특정 작업이나 환경에 과적합(overfit)하는 경향으로 인해 다양한 설정에서 일반화 가능한 행동을 습득하는 데 방해가 된다는 점이다. 본 논문은 이러한 과제에 대한 예비적인 해결책을 제시하며, Minecraft 환경에서 RL로 미세 조정된 시각운동 에이전트가 보지 못한 세계에 대해 제로샷 일반화(zero-shot generalization)를 달성할 수 있음을 입증한다. 구체적으로, 우리는 3D 세계에서 일반화 가능한 공간 추론 및 상호작용 능력을 향상시키기 위한 RL의 잠재력을 탐구한다. 다중 작업 RL 표현의 과제를 해결하기 위해, 우리는 시각운동 정책을 위한 통합 다중 작업 목표 공간으로서 교차 뷰 목표 지정(cross-view goal specification)을 분석하고 확립한다. 또한, 수동 작업 설계의 주요 병목 현상을 극복하기 위해, 고도로 사용자 정의 가능한 Minecraft 환경 내에서 대규모 다중 작업 RL 훈련을 위한 자동화된 작업 합성(automated task synthesis)을 제안하고, 이를 지원하기 위한 효율적인 분산 RL 프레임워크를 구축한다. 실험 결과는 RL이 상호작용 성공률을 4배 증가시키고, 실제 세계 설정을 포함한 다양한 환경에서 공간 추론의 제로샷 일반화를 가능하게 함을 보여준다. 우리의 연구 결과는 대규모 작업 생성이 가능한 3D 시뮬레이션 환경에서의 RL 훈련이 시각운동 에이전트의 공간 추론 능력을 크게 발전시킬 수 있는 엄청난 잠재력을 강조한다.
대형 언어 모델은 시뮬레이션된 '어시스턴트' 페르소나를 통해 사용자와 상호작용합니다. 어시스턴트는 일반적으로 도움이 되고, 해를 끼치지 않으며, 정직하도록 훈련되지만, 때로는 이러한 이상에서 벗어나는 경우가 있습니다. 본 논문에서는 모델의 활성화 공간 내 페르소나 벡터를 통해 악의, 아첨, 환각 경향 등 여러 특성을 나타내는 방향을 식별합니다. 이러한 벡터가 배포 시점에서 어시스턴트의 성격 변동을 모니터링하는 데 사용될 수 있음을 확인합니다. 그런 다음, 페르소나 벡터를 적용하여 훈련 중 발생하는 성격 변화를 예측하고 제어합니다. 미세 조정 후 의도된 및 의도하지 않은 성격 변화가 관련 페르소나 벡터를 따라 이동하는 것과 강한 상관관계가 있음을 발견합니다. 이러한 변화는 사후 개입을 통해 완화하거나, 새로운 예방적 조정 방법을 통해 처음부터 방지할 수 있습니다. 또한, 페르소나 벡터는 데이터셋 수준 및 개별 샘플 수준에서 바람직하지 않은 성격 변화를 초래할 훈련 데이터를 식별하는 데 사용될 수 있습니다. 페르소나 벡터를 추출하는 우리의 방법은 자동화되어 있으며, 관심 있는 모든 성격 특성에 대해 자연어 설명만 주어지면 적용할 수 있습니다.
본 논문에서는 Neural Radiance Fields(NeRF)와 3D Gaussian Splatting(3DGS)을 공동으로 최적화하는 새로운 프레임워크인 NeRF-GS를 소개한다. 이 프레임워크는 NeRF의 고유한 연속적 공간 표현을 활용하여 3DGS의 가우시안 초기화에 대한 민감성, 제한된 공간 인식, 그리고 약한 가우시안 간 상관관계와 같은 여러 한계를 완화함으로써 성능을 향상시킨다. NeRF-GS에서는 3DGS의 설계를 재검토하고, 공간 특징을 점진적으로 NeRF와 정렬함으로써 두 표현이 공유된 3D 공간 정보를 통해 동일한 장면 내에서 최적화될 수 있도록 한다. 또한, 암묵적 특징과 가우시안 위치에 대한 잔차 벡터를 최적화하여 3DGS의 개인화 능력을 강화함으로써 두 접근법 간의 형식적 차이를 해결한다. 벤치마크 데이터셋에 대한 실험 결과는 NeRF-GS가 기존 방법들을 능가하며 최첨단 성능을 달성함을 보여준다. 이러한 결과는 NeRF와 3DGS가 상호 보완적이며 경쟁적이지 않음을 확인하며, 효율적인 3D 장면 표현을 위해 3DGS와 NeRF를 결합한 하이브리드 접근법에 대한 새로운 통찰을 제공한다.
멀티모달 대형 언어 모델(MLLMs)은 시각-언어 추론을 가능하게 하지만, 종종 사실적으로 잘못되었거나 시각적으로 근거가 없는 그럴듯한 출력을 생성하여 신뢰성을 저해합니다. 직접 선호도 최적화(Direct Preference Optimization, DPO)는 인간의 선호도와 모델 출력을 맞추어 환각(hallucination)을 교정하는 일반적인 전략입니다. 기존의 DPO 전략은 환각 관련 선호도를 고정된 목표로 취급하며, 훈련 중에 정적인 감독 신호에 의존합니다. 이 접근 방식은 선호 데이터의 표면적인 언어적 단서에 과적합되는 경향이 있어, 분포적 경직성과 인과적으로 관련된 시각 정보의 근거를 저해하는 허위 상관관계를 초래합니다. 이러한 한계를 극복하기 위해, 우리는 DPO를 최소-최대 최적화 문제로 재구성하는 토큰 적응형 선호도 전략인 TARS를 제안합니다. TARS는 의미론적 제약 하에서 토큰 수준의 분포 변화를 최대화하여 정렬 불확실성을 시뮬레이션하고, 동시에 이러한 제어된 섭동 하에서 예상 선호도 손실을 최소화합니다. 이 공동 목표는 인과적 근거를 보존하면서 선호 패턴에 대한 과적합을 완화하여 멀티모달 추론에서의 환각을 줄입니다. 우리는 TARS를 여러 환각 벤치마크에서 평가하고 일관되게 강력한 성능을 확인했습니다. 단 4.8k개의 선호도 샘플과 전문가 피드백 없이, TARS는 환각률을 26.4%에서 13.2%로 줄이고 인지 가치를 2.5에서 0.4로 감소시켰습니다. TARS는 표준 DPO를 능가하고 여러 주요 지표에서 GPT-4o와 동등한 성능을 보였습니다.
질병 식별과 같은 농업 작업의 정확한 자동화 이해는 지속 가능한 작물 생산에 필수적입니다. 최근 비전-언어 모델(VLMs)의 발전은 텍스트 기반의 쉬운 의사소통을 통해 인간-모델 상호작용을 촉진함으로써 농업 작업의 범위를 더욱 확장할 것으로 기대됩니다. 본 연구에서는 농업 공학의 주요 분야와 실제 농업 현장과 관련된 7가지 농업 주제에 걸쳐 VLM 모델을 평가하기 위한 벤치마크인 AgroBench(Agronomist AI Benchmark)를 소개합니다. 최근의 농업 VLM 벤치마크와 달리, AgroBench는 전문 농학자들이 주석을 달았습니다. 우리의 AgroBench는 203개의 작물 범주와 682개의 질병 범주를 포함한 최신 범주의 범위를 다루어 VLM의 능력을 철저히 평가합니다. AgroBench에 대한 평가에서 우리는 VLM이 세분화된 식별 작업에서 개선의 여지가 있음을 밝혔습니다. 특히 잡초 식별에서는 대부분의 오픈소스 VLM이 무작위 수준에 가까운 성능을 보였습니다. 우리는 다양한 주제와 전문가 주석 범위를 통해 VLM이 저지르는 오류 유형을 분석하고, 향후 VLM 개발을 위한 잠재적인 방향을 제안합니다. 우리의 데이터셋과 코드는 https://dahlian00.github.io/AgroBenchPage/에서 확인할 수 있습니다.
소프트맥스 어텐션이 도입된 이후, 다양한 작업에서의 표현력과 확장성 덕분에 현대 트랜스포머 아키텍처의 핵심 요소로 자리 잡았습니다. 그러나 소프트맥스 어텐션의 주요 단점은 시퀀스 길이에 대한 2차 메모리 요구량과 계산 복잡도입니다. 소프트맥스 비선형성을 대체함으로써, 선형 어텐션 및 유사한 방법들이 소프트맥스 어텐션의 2차 병목 현상을 피하기 위해 도입되었습니다. 이러한 선형 형태의 어텐션들이 원래의 소프트맥스 공식에서 유도되었음에도 불구하고, 일반적으로 하류 작업에서의 정확도 측면에서 뒤처지는 경향이 있습니다. 쿼리와 키의 내적에 대한 소프트맥스 비선형성의 강력한 직관은 다른 비선형성에 비해 바람직한 특성을 가지고 있음을 시사하지만, 이러한 차이가 왜 존재하는지에 대한 질문은 여전히 답변되지 않은 상태입니다. 본 연구는 소프트맥스 어텐션의 순환 형태를 유도함으로써 선형 어텐션이 소프트맥스 어텐션의 근사치임을 보여줍니다. 이 형태를 사용하여 소프트맥스 어텐션의 각 부분을 순환 신경망(RNN)의 언어로 설명할 수 있습니다. 소프트맥스 어텐션을 RNN으로 설명함으로써, 소프트맥스 어텐션의 구성 요소를 제거하여 각 부분의 중요성과 상호 작용 방식을 이해할 수 있습니다. 이러한 방식으로, 본 연구는 소프트맥스 어텐션이 다른 방법들보다 더 표현력이 뛰어난 이유를 설명하는 데 도움을 줍니다.
예술 스타일 분류는 전문적으로 라벨링된 데이터셋의 부족과 스타일 요소 간의 복잡하고 비선형적인 상호작용으로 인해 계산 미학 분야에서 여전히 큰 도전 과제로 남아 있다. 최근 이중 교사 자기 지도 학습 프레임워크가 라벨링된 데이터에 대한 의존도를 줄였지만, 선형 투영 층과 지역적 초점으로 인해 전역적인 구성적 맥락과 복잡한 스타일-특성 상호작용을 모델링하는 데 어려움을 겪고 있다. 본 연구에서는 이러한 한계를 해결하기 위해 기존의 MLP 투영 및 예측 헤드를 Kolmogorov-Arnold Networks(KANs)로 대체하여 이중 교사 지식 증류 프레임워크를 개선하였다. 우리의 접근 방식은 두 교사 네트워크로부터 상호 보완적인 지도를 유지하며, 하나는 지역적인 질감과 붓터치 패턴을 강조하고, 다른 하나는 더 넓은 스타일적 계층 구조를 포착하면서 KANs의 스플라인 기반 활성화를 활용하여 비선형 특성 상관관계를 수학적 정밀도로 모델링한다. WikiArt과 Pandora18k 데이터셋에서의 실험 결과, 우리의 접근 방식이 기본 이중 교사 아키텍처보다 Top-1 정확도에서 우수한 성능을 보였다. 우리의 연구 결과는 복잡한 스타일 매니폴드를 해체하는 데 있어 KANs의 중요성을 강조하며, MLP 투영보다 더 나은 선형 프로브 정확도를 이끌어냈다.
아랍어는 복잡한 형태론, 선택적 발음 구별 기호, 그리고 현대 표준 아랍어(MSA)와 다양한 방언의 공존으로 인해 자연어 처리(NLP)와 정보 검색(IR) 분야에서 특별한 도전 과제로 여겨집니다. 아랍어의 글로벌 중요성이 증가하고 있음에도 불구하고, 아직까지 NLP 연구와 벤치마크 리소스에서 충분히 대표되지 못하고 있습니다. 본 논문에서는 아랍어를 위해 특별히 개발된 개선된 Dense Passage Retrieval(DPR) 프레임워크를 소개합니다. 우리의 접근 방식의 핵심은 표준 상호작용 메커니즘을 대체하는 새로운 Attentive Relevance Scoring(ARS)으로, 질문과 문단 간의 의미적 관련성을 더 효과적으로 모델링하는 적응형 점수 함수를 사용합니다. 우리의 방법은 사전 훈련된 아랍어 언어 모델과 아키텍처 개선을 통합하여 검색 성능을 향상시키고, 아랍어 질문에 대한 답변 시 순위 정확도를 크게 높입니다. 코드는 https://github.com/Bekhouche/APR{GitHub}에서 공개적으로 제공됩니다.
데이터는 우리의 감각에 연속적인 흐름으로 도달하며, 한 순간에서 다음 순간으로 부드럽게 변환됩니다. 이러한 부드러운 변환은 우리가 거주하는 환경의 연속적인 대칭성으로 볼 수 있으며, 시간에 따른 자극 간의 동등 관계를 정의합니다. 기계 학습에서 데이터의 대칭성을 존중하는 신경망 아키텍처는 등변성(equivariant)이라고 불리며, 일반화 능력과 샘플 효율성 측면에서 입증된 이점을 가지고 있습니다. 그러나 지금까지 등변성은 정적 변환과 피드포워드 네트워크에만 고려되었으며, 이는 순환 신경망(RNNs)과 같은 시퀀스 모델 및 해당 시간 매개변수화된 시퀀스 변환에 대한 적용 가능성을 제한했습니다. 본 연구에서는 '흐름(flows)'이라는 영역으로 등변성 네트워크 이론을 확장합니다. 이는 시각적 운동과 같은 시간에 따른 자연스러운 변환을 포착하는 일-매개변수 리 부분군입니다. 우리는 먼저 표준 RNN이 일반적으로 흐름 등변성을 갖지 않음을 보여줍니다: 움직이는 자극에 대해 숨겨진 상태가 기하학적으로 구조화된 방식으로 변환되지 않습니다. 그런 다음 흐름 등변성을 도입하는 방법을 보여주고, 이러한 모델이 다음 단계 예측 및 시퀀스 분류에서 비등변성 모델보다 훈련 속도, 길이 일반화 및 속도 일반화 측면에서 크게 우수함을 입증합니다. 우리는 이 연구를 우리 주변 세계를 지배하는 시간 매개변수화된 대칭성을 존중하는 시퀀스 모델을 구축하기 위한 첫 걸음으로 제시합니다.
개인정보 보호에 대한 우려가 증가함에 따라, 특정 학습 데이터를 "잊게" 하는 것을 목표로 하는 머신 언러닝(machine unlearning)이 점점 더 주목받고 있다. 기존 방법 중에서, 영향 기반 언러닝(influence-based unlearning)은 모델 파라미터에 대한 개별 학습 샘플의 영향을 재학습 없이 추정할 수 있는 능력으로 인해 두드러진 접근법으로 부상했다. 그러나 이 방법은 모든 학습 샘플과 파라미터에 대해 헤시안 행렬(Hessian matrix)과 그 역행렬을 계산해야 하는 과도한 계산 오버헤드로 인해 대규모 모델과 빈번한 데이터 삭제 요청이 발생하는 시나리오에서 실용적이지 못하다. 이는 잊는 것의 어려움을 강조한다. 기억하는 것이 잊는 것보다 쉽다는 인지과학의 통찰에서 영감을 받아, 이 논문은 기억(증분 학습)과 잊기(언러닝) 사이의 이론적 연결을 확립한다. 이 연결을 통해 머신 언러닝을 증분 학습의 관점에서 접근할 수 있게 된다. 언러닝(잊기)에서 시간이 많이 소요되는 헤시안 계산과 달리, 증분 학습(기억)은 일반적으로 더 효율적인 경사 최적화에 의존하며, 이는 앞서 언급한 인지 이론을 뒷받침한다. 이러한 연결을 바탕으로, 우리는 증분 관점에서 효율적인 머신 언러닝을 위한 영향 근사 언러닝(Influence Approximation Unlearning, IAU) 알고리즘을 제안한다. 광범위한 실험 평가를 통해 IAU는 제거 보장, 언러닝 효율성, 그리고 비교 가능한 모델 유용성 사이에서 우수한 균형을 달성하며, 다양한 데이터셋과 모델 아키텍처에서 최신 방법들을 능가함을 입증한다. 우리의 코드는 https://github.com/Lolo1222/IAU에서 확인할 수 있다.