Warsztaty z transfer learningu w NLP (EuroCC)

Europe/Warsaw
https://www.gotomeet.me/NCBJmeetings/eurocc

https://www.gotomeet.me/NCBJmeetings/eurocc

Paweł Przewłocki
Description

Serdecznie zapraszam na warsztaty z wykorzystania modeli typu BERT i biblioteki Huggingface do przetwarzania języka naturalnego. Na warsztatach pokażę Wam jak w łatwy sposób wykorzystywać gotowe modele oraz douczać je na swoich zbiorach danych. Nauczymy się:

  • Korzystać z modeli biblioteki Huggingface
  • Przygotowywać zbiory danych (korpusy tekstów) do uczenia
  • Douczać modele w celu m.in. klasyfikacji tekstów
  • Interpretować wyniki.

Warsztaty będą odbywać się po polsku i większość przykładów dotyczyć będzie tekstów w języku polskim.

Wymagania wstępne

  • Dobra znajomość pythona (wersja 3) i Jupytera (notatników pythonowych)
  • Ogólne pojęcie o algorytmach sztucznej inteligencji i znajomość metod uczenia maszynowego
  • Konto na Googlu, żeby korzystać z Google Collab https://colab.research.google.com

Lokalizacja

Zdalnie: https://www.gotomeet.me/NCBJmeetings/eurocc

    • 10:00 10:20
      Wprowadzenie 20m
      Speaker: Pawel Przewlocki (NCBJ)
    • 10:20 10:50
      Ćwiczenia z tokenizacji 30m

      Notatnik: using-tokenizer.ipynb
      Modele: Roberta (polska i angielska), BERT, itp.
      • podstawy działania Google Collab, ładowanie bibliotek, ściąganie modeli
      • ładowanie modeli tokenizacji
      • rozumienie outputu tokenizatorów
      • porównanie działania różnych modeli

      Speaker: Pawel Przewlocki (NCBJ)
    • 10:50 11:20
      Ładowanie i używanie modeli 30m

      Notatnik: using-models.ipynb
      Modele: BERT, polska Roberta
      • inicjalizacja modeli
      • używanie modeli do predykcji wybranych słów
      • używanie modeli do weryfikacji, czy zdania są ze sobą powiązane

      Speaker: Pawel Przewlocki (NCBJ)
    • 11:20 11:40
      Przerwa 20m
    • 11:40 13:10
      Klasyfikacja zdań za pomocą douczonego wcześniej modelu 1h 30m

      Notatnik: polish-Roberta-classification-simp.ipynb
      Model: polska Roberta
      Korpus: https://clarin-pl.eu/dspace/handle/11321/700
      • przetwarzanie zbioru danych do użycia przy douczaniu modelu
      • douczanie modelu, aby rozpoznawał nastawienie emocjonalne zdań z recenzji internetowych
      • obliczanie miar skuteczności selekcji pozytywnych recenzji
      Możliwe zadania dodatkowe: obserwacja zależności wyników od parametrów uczenia, wielkości zbioru uczącego, itd; próba nauczenia modelu na całych akapitach tekstu

      Speaker: Pawel Przewlocki (NCBJ)
Your browser is out of date!

Update your browser to view this website correctly. Update my browser now

×