Korpus Ślōnskij Mŏwy – prymiera

19 grudnia 2018 Grzegorz Kulik

Moc sie cieszã, iże mogã ôficjalnie pedzieć, że już funguje serwis SilLing, co na nim idzie znojś publicznõ czyńść Korpusu Ślōnskij Mŏwy i translatōr polsko-ślōnski i ślōnsko-polski.

Już żech ô tym pisoł, ale krōtko spōmnã, co to tyn korpus je. To je zbiōr tekstōw, co je idzie wartko przeszukować. Na razie dlŏ ślōnskigo korpusu nojważniyjszŏ je funkcyjŏ kōnkordancyje, to znaczy wykazu wszyjskich trefiyń danego słowa we korpusie społym ze jego kōntekstym. Mogymy tak analizować to, kaj jakeś słowo je używane, co ône znaczy, mogymy sprawdzić, czy to je archajizm abo neologizm. Mogymy tyż wejzdrzeć, jak wyglōndŏ ôdmiana danego słowa i słożyć tabulã takij ôdmiany.

Skōnd sie wziōnły korpusy? We 1230 roku Hugo ze Saint-Cher, francuski dōminikōn, społym ze 500 inkszymi fratrami słożōł Concordantiae Sacrorum Bibliorum. Concordantia to po łacinie zgoda abo harmōnijŏ i to bōł indeks słōw z Biblije, a żeby być barzij akuratny – z Wulgaty. Taki indeks bōł troszkã jak słownik. Były w nim poukłŏdane alfabetycznie hasła, a kożde hasło podŏwało kōntekst danego słowa i kaj je znojdymy.

Do lŏt 60. XX stoleciŏ ino niykere teksty były tak indeksowane. Już samo to, iże do zindeksowaniŏ Biblije trzeba było 500 ôsōb styknie do pokŏzaniŏ, co to była za robota. Bez to robiyło sie take kōnkordancyje, ale robiyło sie je ino na bazie nojważniyjszcyh tekstōw, to znaczy Biblijŏ, dzieła Szekspira, Koran, abo dzieła Joyce’a. I w latach 60. na amerykańskim Uniwersytecie Brown Nelson Francis i Henry Kučera skōmpilowali piyrszy moderny korpus, co bōł słożōny ze milijōna słōw ze tekstōw ôpublikowanych we USA we 1961 roku. Ôd tego czasu na świecie kōmpiluje sie corŏz wiyncyj korpusōw. Te nōm nojbliższe to Český Národní Korpus, Deutsches Referenzkorpus i Narodowy Korpus Języka Polskiego.

Dalszŏ tajla artykułu niżyj

Tōż widzymy, iże we ôstatnich latach, dziynki rozwojowi technologiji informatycznych, lingwistyka korpusowŏ, szło by powiedzieć, eksplodowała.

Tyn ślōnski korpus mŏ funkcyjõ poznawczo-weryfikacyjõ. Dycki ślōnske wydŏwnictwa słownikowe spisowały ino słowa, i to ino te, co ich niy ma po polsku. Niy ma w nich kōntekstu ani ôdmiany. Traci sie bez to ślōnskŏ gramatyka, bo ludzie znojdujōm słowa we słownikach, ale niy wiedzōm, jak je ôdmiynić. Pauperyzuje sie nōm tyż gŏdka, bo połno słōw zawłŏszczōł polski jynzyk. Niy ma ich we słowniku, tōż to niy sōm nasze. Przestŏwōmy pisać, a zaczynōmy szkryflać. Niy mōmy nōg, ino szłapy.

Teksty do terŏźnyj wersyje korpusu żech zbiyroł ôd lutego 2017 roku. Zaczōn żech ôd przetrasliterowaniŏ tekstōw gwarowych do alfabetu ślabikŏrzowego. Trzeba było to zrobić, bo teksty gwarowe sōm pisane alfabetami fōnetycznymi. Taki zŏpis sie do korpusu niy nadŏwŏ, tōż trzeba było to ustandaryzować. Potym trzeba było jeszcze zeskanować i rozpoznać insze teksty metodōm OCR. We OCR rozchodzi sie ô to, iże jak kōmputer widzi zeskanowanõ strōnã, to wiy, iże to je ôbrŏz czegoś, ale niy wiy, że to je kartka, ani niy wiy, iże na tyj kartce je tekst. Ale je ekstra ôprogramowanie, co poradzi take ôbrazy czytać. Take ôprogramowanie je przistosowane do angelskij mŏwy, polskij i inkszych, ale do ślōnskij niy. Tōż efekty były słabe i trzeba było dużo poprawiać.

Zorta	Liczba słowoformōw	Udzioł (procynt)
literatura piyknŏ i beletrystyka	1067478	53,34
artykuły presowe	599440	29,95
teksty gwarowe	269371	13,46
teksty religijne	16992	0,85
pamiyntniki	15285	0,76
eseje	12509	0,63
korespōndyncyjŏ	647	0,03
insze	19559	0,98
Suma	2001281	100

Jak widzicie nojwiynkszy part to je literatura piyknŏ i beletrystyka, dalij artykuły presowe, teksty gwarowe i inksze. Zdŏwałoby sie, iże tekstōw gwarowych, to znaczy gŏdanych, je mało, ale taki stosunek biere sie z tego, iże transkrypcyjŏ tekstōw gŏdanych biere tela czasu i postrzodkōw, iże niy ma synsu tego robić. Styknie pedzieć, iże we Narodowym Korpusie Języka Polskiego i we Brytyjskim Korpusie Nŏrodowym teksty gŏdane to ino 10 procynt.

We nastympnych wersyjach korpusu dobrze by było, jakby były rozszyrzōne materyje ze dziynnikōw i cajtōngōw z lot 1850-2000. Jak wszyjscy wiymy, kożdŏ szanujōncŏ sie gazyta ślōnskŏ mŏ jakõś rubryka po naszymu i dobrze by było te wszyjske rubryki zebrać. We Ślōnskij Bibliotece Cyfrowyj już sōm gotowe skany. Jŏ tak rachujã, że nojmynij dwa milijōny słōw z tych rubryk by szło zebrać. Mōm tyż nadziejã, iże dojdōm dalsze teksty ôd modernych autorōw, i że dojdōm tyż dalsze teksty z internetu.
Wielkŏ potrzeba to je anotowanie korpusu. Anotacyjŏ polegŏ na tym, iże do kożdego słowa dodŏwŏ sie jeszcze ekstra informacyjõ. Jak jŏ mōm słowo „robiōł”, to do tego dopisujã, iże to je czasownik „robić”, że to je czas przeszły, rodzaj mynski, trzeciŏ ôsoba, liczba pojedynczŏ.

Adresa, kaj korpus je udostympniōny, to je silling.org. Sil jak Silesiana, ling jak lingwistyka. Udostympniōne było 55 procynt cołkigo zbioru. Czymu ino 55 procynt? Prawa autorske. Z autorami modernymi, co żyjōm, niy było problymu. Stykło sie zapytać i zarŏz była zgoda. Dostołch jednã ôdmŏwã. Gorzij było z tymi autorami, co już niy żyjōm. Pisołch do sześciu abo siedmiu wydŏwnictw, niykere miały wiyncyj jak jednã publikacyjõ, co by szło wkludzić do publicznyj czyńści korpusu. Ôdpowiedziało mi jedno, że niy znajōm erbōw ôd autora.

We serwisie SilLing.org znojdziecie wkludzynie do roboty ze korpusym, wykŏz zdrzōdeł i inksze ekstra informacyje. We nojbliższych dniach napiszã tyż wiyncyj ô translatorze.

Grzegorz Kulik

Ôstŏw ôdpowiydź Pociep ôdpowiydź