2020. október 18. - Szövegbányászat és gépi tanulás R-ben elméleti és gyakorlati kurzus

Szövegbányászat és gépi tanulás R-ben

Elméleti és gyakorlati kurzus a TK PTI POLTEXT Projektje szervezésében

A társadalomtudományi szövegbányászat egyik legelterjedtebb – egyben ingyenesen hozzáférhető – eszköze az R szoftver-környezet. A POLTEXT Projekt (poltext.tk.mta.hu) keretében meghirdetett 2 alkalmas kurzus bevezetést nyújt a társadalomtudományi szövegbányászat elméletébe, illetve az R-ben végrehajtott szövegbányászati és gépi tanulási feladatokba.

A kurzus során a feladatok elvégzéséhez a Hungarian Comparative Agendas Project (cap.tk.mta.hu) korpuszait használjuk. A kurzus elvégzéséhez az R és RStudio ismerete nem előfeltétel. A gyakorlati kurzushoz azonban szükséges, hogy a részvevők a saját gépükre telepített R és RStudioval rendelkezzenek. A telepítésről további információ itt található. Vagy használható az RStudio Cloud (előzetesen regisztrációhoz kötött), ami az alábbi linken érhető el.

Az elméleti kurzus időpontja: 2020. november 3. 9:00-12:15 (2x1,5 óra)

Részvétel: online formában

A résztvevők száma: maximum 15 fő (a jelentkezések sorrendjében)

Tematika:

1. Mi a szövegbányászat? A szöveg, mint adat

2. A korpusz-készítés és előkészítés problémái

3. Szövegreprezentáció és leíró statisztikai elemzések

4. Szótár alapú elemzések, érzelem-elemzés (sentiment analysis)

5. Klaszter-elemzés és topik modellezés

6. Szóbeágyazások

7. Osztályozás és felügyelt tanulás

8. Skálázás

9. Szövegösszehasonlítás

 

A gyakorlati kurzus időpontja: 2020. november 26. 9:00-15:00 illetve 2020. november 27. 9:00-15:00 (3x1,5 óra, két szünettel) 

 A REGISZTRÁCIÓT MEGERŐSÍTŐ EMAILÜNKBEN FOGJUK JELEZNI, HOGY MELYIK IDŐPONTRA VÁRJUK! 

 

Helyszíne: Társadalomtudományi Kutatóközpont, 1097 Budapest Tóth Kálmán utca 4.

Részvétel: személyesen (a járványügyi szabályok betartása mellett), saját számítógéppel, vagy online

A gyakorlati kurzuson való részvétel feltétele az elméleti kurzuson való részvétel!

Tematika:

  1. Bevezetés R és az RStudio használatába 
  2. DTM Mátrix
  3. Leíró statisztikák
  4. Szótár-alapú elemzések, érzelem-elemzés (sentiment analysis)
  5. Felügyelet nélküli és felügyelt gépi tanulás

 

A részvétel előzetes regisztrációhoz kötött. 

A regisztáció az érdeklődök nagy száma miatt lezárult. Köszönjük az érdeklődést!

További információ: ring.orsolya@tk.mta.hu