정보 업데이트

블로그블로그

SCSK 온라인 슬롯 커뮤니티 Automl 피망 슬롯 커뮤니티 | scsk ai automl 자연어 처리 | 무료 슬롯 커뮤니티 사이트 | scsk ai automl 상황에서 기능을 추출하여 자연어 처리 슬롯 커뮤니티의 성능 향상

상황에서 기능을 추출하여 자연어 처리 슬롯 커뮤니티의 성능 향상

이번에는 텍스트 분석에서 슬롯 커뮤니티 엔지니어링을 개선하는 간단하고 효과적인 방법을 소개하고 싶습니다. 이 기사를 읽은 후에는 H2O AI 클라우드를 사용하여 동일한 단계로 시도 할 수 있습니다.

먼저 H2O 무인 AI (AI Cloud의 Automl 제품 중 하나)에 대한 기성품 자연 언어 처리 (NLP) 레시피를 살펴 보겠습니다. TF-IDF (Term-Inverevency Inverse Documpendency)와 같은 표준 텍스트 변환 레시피에서 CNN (Convolutional Neural Network), BIGRU (BI-Directional Gated Reburrent Unit) 및 Transformers (Bert)의 양방향 인코더 표현과 같은 복잡한 레시피도 있습니다. 사용 가능한 텍스트 변환의 ​​전체 목록은여기에서 볼 수 있습니다.

H2O 드라이버리스 AI 기성산 NLP 레시피

20220510-2.jpg.png

우리는 이미 가장 일반적인 텍스트 분석 사용 사례를 다루는 많은 일반적인 NLP 레시피를 가지고 있습니다. 그러나 그게 전부는 아닙니다. 우리는 더 똑똑하고 중요한 도메인-특이 적 특징 추출을 통해 예측 성능을 더욱 향상시킬 수 있음을 이해합니다. 따라서 무인 AI의 NLP 기능은 사용자 정의 레시피를 통해 확장 할 수 있습니다. 연구 커뮤니티에서 제공하는 최첨단 NLP 슬롯 커뮤니티을 사용하여 무인 AI는 최소한의 노력으로 상황에 맞는 기능을 추출 할 수 있습니다. 그러면 어떻게하는지 보여 드리겠습니다.

간단한 튜토리얼 - 항공사 트위터 정서 분석

Airline Twitter 감정 분석 데이터 세트는 2015 년에 얻었습니다. 이는 긍정적, 부정적 및 중립 트윗을 분류하는 문제입니다. 데이터 세트에 대한 자세한 내용은여기에서 다운로드 할 수 있습니다. 데이터 세트에서 사용 가능한 20 개의 열 중 텍스트 (유일한 슬롯 커뮤니티) 및 airline_sentiment (목적 변수) 만 사용됩니다.

20220510-3.png

1 단계 - 데이터 분할

다음 단계를 사용하여 항공사 데이터 세트를 무인 AI로 가져옵니다. 항공사의 Twitter 감정 분석 데이터 세트는 전용 테스트 데이터 세트가없는 단일 CSV입니다.데이터 분할 슬롯 커뮤니티를 사용하여 데이터 세트를 Airline_train (교육 데이터) 및 Airline_test (테스트 데이터)로 나눕니다.

20220510-4.png

2 단계 - 기준 슬롯 커뮤니티 구축

글쎄, 우리는 이제 Airline_train을 사용하여 첫 번째 슬롯 커뮤니티을 교육했으며 Airline_test를 사용하여 알 수없는 데이터의 성능을 평가할 준비가되었습니다. 첫 번째 기준선 슬롯 커뮤니티에서는 대부분의 설정을 기본적으로 두십시오. 이 연습은 텍스트 열만 단일 기능으로 사용하므로 실험을 시작하기 전에 나머지 설정을 제거해야합니다 (아래의 낙하 열 설정 참조).

기준선 슬롯 커뮤니티에 대한 무인 AI 슬롯 커뮤니티 학습 설정

20220510-5.png

드롭 열 설정에서 텍스트 이외의 다른 것을 삭제하는 것을 잊지 마십시오

20220510-5B.png

복잡한 텍스트 변환 (예 : CNN, Bigru, Bert)을 비활성화 하므로이 간단한 실험에서 변환 된 모든 기능은 TF-IDF 기반입니다. 이 기준 슬롯 커뮤니티은보다 복잡한 변환으로 개선 될 수 있으므로 다음 단계로 넘어 갑시다.

기준선 슬롯 커뮤니티의 가장 중요한 특징은 TF-IDF 기반 Word Embedding

20220510-6.png

3 단계 -CNN 및 Bigru와의 슬롯 커뮤니티 변환으로 기준선 향상

보다 복잡한 텍스트 변환을 활성화하려면 다음과 같이 전문가 설정에서 두 가지 값을 변경해야합니다.이를 통해 자동 기능 엔지니어링 파이프 라인에서 워드 기반 CNN 및 Bigru 텍스트 변환이 가능합니다. 결과는 실험이 CNN 및 Bigru (기준 슬롯 커뮤니티에서 TF-IDF 기반 기능)를 기반으로 중요한 기능을 생성한다는 것을 보여줍니다. 슬롯 커뮤니티 성능의 향상 (예 : Logloss 및 오류율 감소)도 볼 수 있습니다. 이 성능을 더욱 향상시킬 수 있습니까?

NLP 전문가 환경에서 단어 기반 CNN 및 Bigru 슬롯 커뮤니티 활성화

20220510-7.png

CNN 및 Bigru의 새로운 슬롯 커뮤니티 예측 성능 향상

5379.png

포옹 페이스 슬롯 커뮤니티 허브에 들어가는 입력

다음 단계로 가기 전에 Hugging Face라는 환상적인 플랫폼을 소개하겠습니다. 그들의 홈페이지에는 다음과 같은 단어가 포함되어 있습니다.

우리는 지역 사회가 "인공 지능 진화의 목표"를 향해 함께 일하도록 돕고 있습니다. 한 회사, 심지어 IT 거인조차도 자체적으로 "AI를"해결 "할 수 없더라도. 우리가이를 달성 할 수있는 유일한 방법은 지식과 자원을 공유하는 것입니다. Hugging Face Hub는 모든 슬롯 커뮤니티, 데이터 세트 및 메트릭 모음을 구축하여 모든 사람을 위해 AI를 민주화하고 발전시킵니다. Hugging Face Hub는 모든 사람이 슬롯 커뮤니티과 데이터 세트를 공유하고 검색 할 수있는 중심 위치 역할을합니다. " (원천:포옹 얼굴)

20220510-9.png

4 단계 - 도메인 별 변압기 탐색

당신은 포옹 얼굴에서 키워드 "Twitter"를 검색하여 카디프 NLP 그룹의 트위터 로버트-베이스 소지자 모델을 찾을 수 있습니다. 이 모델은 많은 다른 트윗에 대해 학습되었습니다. 이것은 우리의 유스 케이스와 관련이있는 것 같습니다. 그래서 시도해 봅시다.

포옹을위한 도메인 별 슬롯 커뮤니티 탐색

20220510-10.png

새로운 기능으로 사용될 수있는 Twitter-Roberta-Base-Sentiment 슬롯 커뮤니티의 출력 예

20220510-11.png

5 단계-Twitter-Roberta 기반 변압기를 사용하여 상황에 맞는 슬롯 커뮤니티 추출

이제 이것은 가장 중요한 단계입니다. 이 작업을 올바르게 수행하면 포옹 페이스에서 더 많은 변압기를 가져올 수 있습니다.

먼저, Twitter-Roberta-Base-Sentiment Transformer를 무인 AI로 가져 오려면 간단한 Python 스크립트를 작성해야합니다. 이 스크립트를 TwitterRobertatransformer.py라고 부릅니다. 이 스크립트에서 가장 중요한 매개 변수는 model_name 및 class입니다. 포옹 얼굴에 다른 변압기로 교체하면 많은 변압기를 무인 AI로 가져올 수 있습니다.

H2OAICORE에서 SYSTEMUTILS 가져 오기 구성'Cardiffnlp/Twitter-Roberta-Base-Sentiment'클래스 TwitterRoberta (Berttransformer, CustomTransformer) :get_default_properties() :"텍스트",get_parameter_choices() :

스크립트가 준비되면 다음과 같이 전문가 설정 레시피 탭에서 스크립트를 업로드하십시오. 특정 변압기 설정에서 TwitterRoberta를 선택하여 활성화해야합니다. 그 후 Twitterroberta는 슬롯 커뮤니티 엔지니어링 검색 공간에 나타납니다.

사용자 지정 레시피로 새로운 슬롯 커뮤니티 변환 추가

20220510-12.png

Twitter-Roberta 기반 슬롯 커뮤니티 엔지니어링 파이프 라인에서 사용할 수 있습니다

20220510-13.png

예상대로, 우리는 Twitter-Roberta-Base-Sentiment 슬롯 커뮤니티의 도메인 별 기능을 사용하여 더 나은 예측 성능을 얻을 수있었습니다.

Twitter-Roberta 기반 슬롯 커뮤니티 예측 성능 향상

이미지 1.png

요약

이 컨텐츠는 TF-IDF와 같은 표준 텍스트 변환을 사용하여 간단한 기준 슬롯 커뮤니티로 시작한 다음 CNN/Bigru 기능 변환을 사용하여 성능을 향상 시켰습니다. 또한 컨텍스트를 염두에두고 도메인 별 기능을 추출하기 위해 Twitter-Roberta-Base-Sentimentimmerer를 소개하여 슬롯 커뮤니티 성능을 더욱 향상시킬 수 있습니다.

다양한 텍스트 변환을 기반으로 한 슬롯 커뮤니티 성능 비교

(점수 = logloss, 더 잘 낮아짐)

20220510-15.png

다음, 당신의 차례입니다!

이 슬롯 커뮤니티도 더 개선 될 수 있습니다 (아래 스크린 샷 참조). 나는 구체적인 일을 삼가 겠지만, 당신은 그것을 곧바로 얻을 것이라고 확신합니다. 다음은 몇 가지 팁입니다.

  • 무인 AI와 함께 제공되는 다른 버트 변압기를 켜는 것이 가능합니까?
  • 정확도/시간/해석 가능성에 대한 설정을 변경해 보지 않겠습니까? 리더 보드 슬롯 커뮤니티이 유용 할 수 있습니다.
  • 껴안는 얼굴에서 다른 변압기를 사용할 수 있습니까?

다른 텍스트 변압기를 혼합 할 수 있습니다. 예, 우리는 이것보다 더 나은 일을 할 수 있습니다

20220510-16.png

키 포인트

사용자 정의 레시피를 사용하면 AI 커뮤니티의 최첨단 슬롯 커뮤니티을 사용하여 무인 AI 텍스트 변환을 확장하고 향상시킬 수 있습니다. 따라서 우리는 이미 향후 자동화 된 기능 엔지니어링 파이프 라인을 유지하는 기술을 가지고 있습니다. 우리는 사용자가 다른 변압기로 무엇을 할 수 있는지 보게되어 기쁩니다. 예를 들어, 의료용 사용 사례를위한 Biobert와 함께 예측에 사용할 수있는 기능을 추출 할 수 있습니까? 주식 시장에서 경쟁력을 갖도록 Finbert에서 얻은 기능을 사용할 수 있습니까? 가능성은 끝이 없습니다. 우리는이 기술을 통해 사용자가 최소한의 노력으로 최신 변압기의 혜택을받을 수 있기를 바랍니다.

무료 평가판

실제로 H2O의 NLP 기능을 확인하려는 사람들의 경우 실습 세미나 및 무료 평가판 환경을 제공합니다.무료 슬롯 문의 제품 및 서비스 입력 | Scsk Co., Ltd.를 통해 당사에 문의하십시오.

원본 제목

(공식) h2o.ai 블로그

컨텍스트 인식 기능 추출으로 NLP 슬롯 커뮤니티 성능 향상
Jo-Fai Chow

TOP

정보 요청
문의
여기