오늘 무엇을 사야합니까?
2021올해는 추천 엔진을 어디에서나 사용할 수 있습니다. 온라인 쇼핑, 음식, 음악 및 온라인 데이트에 관계없이 온라인 슬롯에게 개인화 된 권장 사항을 제공하는 경쟁이 많이 있습니다. 구매 전략과 디지털 상호 작용을 기반으로 온라인 슬롯가 필요로하는 기술은 실제로 강력하며 점차 점점 더 광범위하게되고 있습니다. 당연히, 나는이 분야를 꽤 오랫동안 탐색하는 데 관심이있었습니다. 이번에는 "Kaggle Bipoc Program 2021"의 보조금 수령인이 될 수있는 기회를 가졌으며, 나는 그것을 프로그램의 제품으로 선보이기로 결정했습니다.
프로젝트의 목적은 온라인 슬롯의 구매 기록을 기반으로 각 온라인 슬롯에게 개인화 된 제품을 추천하는 것입니다. 이를 위해 연구를 한 후 협업 필터링을 소개하기로 결정했습니다. 협업 필터링은 온라인 슬롯와 제품 간의 과거 상호 작용을 사용하여 온라인 슬롯가 선호하는 제품을 지능적으로 예측합니다. 나는 행렬 팩터 메소드를 사용합니다 (매트릭스 인수 화 알고리즘)는 잘 알려져 있으므로이 알고리즘을 사용하기로 결정했습니다.
행렬 인수는 무엇입니까?
간단히 말해서 매트릭스 인수화는 무엇입니까?1하나의 매트릭스2이것은 그것을 두 개의 동등한 행렬로 분해하고 제품을 사용하여 원래 행렬을 얻는 기술입니다. 매트릭스 인수 화와 같은 권장 문제를 모델링하려면 온라인 슬롯와 제품 간의 단일 매트릭스로의 상호 작용을해야합니다. 이 매트릭스에는 모든 온라인 슬롯가 행으로, 모든 제품은 칼럼으로, 제품 등급을 매트릭스 값으로 갖추고 있습니다.
간단히 말해서,이 알고리즘은 ""라벨이 붙은 항목의 값을 예측합니다. 이미 온라인 슬롯가 검토 한 제품을 기반으로합니다. 이 모델은h2o.aigpu패키지를 사용하여 구축,gpu, sosklearn.nmf라이브러리보다 더 빠른 처리를 달성합니다.
데이터 세트 준비
아마존 검토 데이터 세트를 사용하십시오 다양한 제품 카테고리에 대한 리뷰와 메타 데이터를 결합하고 모델 구성을 준비합니다. 입력 데이터 세트를 교육 및 테스트 세트로 분할 할 때 테스트 세트의 사용자 및 제품 목록은 교육 데이터의 하위 집합입니다. Matrix Decomposition 알고리즘은 새로운 사용자 (즉, 구매 기록이없는 사용자) 또는 신제품 (교육 데이터에서 모든 사용자에게 구매/6245_6276
모델 구성
RMSE를 사용하십시오 하이퍼 파라미터 (n_components, lambda, max_iters)의 조합을 변경하여 모델을 조정하고 가장 낮은 오류가있는 조합을 선택했습니다. 그런 다음 위에서 언급 한 하이퍼 파라미터의 최적 조합을 사용하여 모델을 전체 데이터 세트 (교육 및 테스트 모두)에 대해 최적화했습니다.
이 데이터 세트는 꼬리가 길지만 오류는 거의없고 거의 만족스러운 결과를 얻었습니다. 각 온라인 슬롯가 더 많은 과거 데이터 (다양한 범주에 대한 다양한 구매 기록)를 갖도록 더 많은 교육 데이터를 추가하면 알고리즘이 더 잘 배우고 더 나은 권장 사항을 제공하는 데 도움이됩니다.
웹 앱 구축
프로젝트의 최종 제품은H2O Wave웹응용 프로그램. 온라인 슬롯 구매 기록은 왼쪽에 있으며 오른쪽의 각 온라인 슬롯를 전문으로하는 권장 제품10를 표시하는 간단한 대시 보드입니다. 온라인 슬롯 선택 :50이것은 온라인 슬롯와 함께 간단한 드롭 다운을 사용하여 수행 할 수 있습니다. 이 앱의 빠른 데모는 다음과 같습니다.
H2O Wave사용의 특전1간단합니다Python실시간 사용 코드웹응용 프로그램을 구축 할 수 있습니다. 프론트 엔드 기술에 대한 경험이 거의 없으므로 짧은 시간 안에 새로운 프론트 엔드 기술을 배우는 것에 대해 조금 걱정했습니다. 하지만,H2O Wave의 간결하고 유용한 문서 매우 명확한 과정입니다. 또한,ML우리는 또한 모델을 생산 환경에 배치하는 것과 관련된 프로세스와 과제에 대한 더 깊은 이해를 얻었습니다.
다음 단계는 무엇입니까?
파이프 라인이 완료되면 이제 다양한 구현을 고려할 수 있습니다. 더 많은 데이터를 교육에 통합하는 것 외에도 유사성과 같은 유용한 정보뿐만 아니라 다른 평가를 캡처 할 수있는 모델을 분석하는 것이 흥미 롭습니다. 기타 개선 사항에는 다음이 포함됩니다.
- SVD,그라디언트 하강
- 평균 예측 값과 같은 다른 메트릭을 고려
- 컨텐츠 기반 필터링, 부스팅 및 하이브리드 모델을 포함한 다른 알고리즘의 시험.
- 제품 권장 사항 외에 온라인 슬롯 구매 행동에 대한 제품 리뷰와 같은 추가 데이터의 영향 이해
- 피드백 루프를 통합하여 모델 권장 사항과 온라인 슬롯 동작 사이의 관련성 탐색
그 목표는 시간이 지남에 따라 진화하고 원활한 온라인 슬롯 경험을 제공 할 수있는 고도로 지능적인 시스템을 구축하는 것입니다.
원본 제목
(공식) h2o.ai 블로그
오늘 우리는 무엇을 구매하고 있습니까?
Rohan Rao