Korpus Ślōnskij Mŏwy – raport

20 lipnia 2019 Grzegorz Kulik

Streszczenie

Korpus Ślōnskij Mŏwy to nowe narzędzie do badań nad językiem śląskim. Artykuł przedstawia genezę jego powstania, zakres i metody dotychczasowych prac, statystyki, a także wielkość zbioru. Omówione są zauważone dzięki niemu braki w notowanej w słownikach leksyce i frazeologii. Przedstawione są również niedobory oraz perspektywy na przyszłość.

Wstęp

Potrzeba skompletowania dużego zbioru tekstów śląskich była sygnalizowana już w okresie międzywojennym (Nitsch 1929). Pierwsze teksty śląskie zostały zebrane w celach naukowych jednak kilkadziesiąt lat wcześniej, bo w 1869 roku (Malinowski 1899; Malinowski 1901). W kolejnych dziesięcioleciach wielu językoznawców publikowało zbiory z mniejszych lub większych terenów (np.: Steuer 1934; Bąk 1939; Sobierajski 1960; Sobierajski 1961; Pluta 1964; Dobrzyński 1967), jednak wydaje się, że poza badaniami pod kierunkiem Władysława Lubasia (Lubaś 1978), zainteresowanie mową rejonu przemysłowego Górnego Śląska jest niewielkie. Mimo faktu, że okolice konurbacji górnośląskiej oraz aglomeracji rybnickiej reprezentują największy potencjał demograficzny użytkowników języka śląskiego, nawet ogłoszony niedawno plan zbudowania Korpusu Gwar Polskich zakłada skupienie się tylko na gwarach ludowych (Karaś 2014).

Dalszŏ tajla artykułu niżyj

Problem nieuwzględniania obszarów miejskich w badaniach dialektologicznych Górnego Śląska został wskazany przez Jolantę Tambor (Tambor 2006: 86). Nie są obiektem zainteresowania badaczy również ani teksty literackie (Czesak 2015: 242), ani prasowe, co stanowi pominięcie ogromnej ilości materiału badawczego. Teksty z trzech roczników „Kocyndra” z lat 1920-1922 zawierają 54524 słowoformy, co czyni je objętościowo większymi od wszystkich opublikowanych zbiorów tekstów gwarowych oprócz drugiej części „Powieści ludu polskiego na Śląsku” Lucjana Malinowskiego o wielkości 103459 słowoform. Artykuły o podobnym charakterze w samym tylko okresie międzywojennym ukazywały się m. in. w „Polaku”, „Polsce Zachodniej”, „Siedmiu Groszach”, „Dzienniku Robotniczym” i przynajmniej dwudziestu innych tytułach, których skany dostępne są za pośrednictwem Śląskiej Biblioteki Cyfrowej. Tradycja posiadania rubryki pisanej po naszymu żywa jest w prasie śląskiej aż do dzisiaj, gdy kontynuuje się ją na portalach internetowych, na przykład w Gazecie Codziennej (gazetacodzienna.pl, „Co tydziyń po naszymu”) czy katowickiej Gazecie Wyborczej (katowice.wyborcza.pl, „Pogodomy se po ślonsku”).

Mimo że Internet stanowi największe repozytorium języka śląskiego w historii, nie są również badane teksty pojawiające się w nim. Wartość Sieci jako zbioru językowego materiału badawczego dostrzeżono już pod koniec XX wieku (Resnik 1999), a wkrótce później przedstawione zostały sposoby docierania do odpowiednich dokumentów w językach mniejszościowych (Ghani i in. 2001; Ghani i in. 2005). Mimo to do dziś Internet nie jest wykorzystywany w badaniach nad stanem języka śląskiego. Próbę zebrania korpusu z danych zawartych w Sieci podjął Kevin Scannell w ramach projektu An Crúbadán mającego na celu budowanie korpusów dla mniej zasobnych języków (Scannell 2007), jednak na 6083 adresy przeanalizowane przez oprogramowanie i zawierające tekst po śląsku, tylko 315 nie pochodziło ze śląskiej wersji Wikipedii¹. Zbiór taki jest więc nadal niewystarczający, ale może zostać wytrenowany do lepszego rozpoznawania języka śląskiego. Mogłoby to przynieść zebranie szerokiego korpusu śląskiego złożonego z tysięcy artykułów śląskich rozrzuconych w Sieci, ale także krótszych komunikatów w rodzaju postów na forach internetowych.

Język śląski występuje zatem zarówno w tekstach gwarowych, literaturze pięknej, prasie, jak i w Internecie. Zamykanie się na któreś z nich powoduje przedstawianie niepełnego obrazu języka śląskiego przejawiającego się na przykład poprzez pomijanie w wydawnictwach słownikowych leksyki właściwej dla określonych rejonów (Czesak 2015: 242) lub dla innych funkcji. Trudno też efektywnie opisać gramatykę języka śląskiego, jeśli nie ma się do dyspozycji elektronicznego zbioru tekstów w nim zapisanych. Wstępny opis potencjalnego korpusu śląskiego przedstawił Artur Czesak pisząc, że [w] podejściu maksymalistycznym wielki korpus śląski winien gromadzić możliwie największy zbiór danych. Byłby to więc „korpus dokumentacyjny” (za Czesak 2015: 241).

Lingwistyka korpusowa jest dyscypliną nauki mającą swoje źródła w poprzednich wiekach, ale jej najbardziej dynamiczny rozwój nastąpił wraz z pojawieniem się i postępem technologii informatycznych (Lüdeling i Kytö 2008; O’Keefe i McCarthy 2010).

Pierwsze kroki w budowie Korpusu Ślōnskij Mŏwy zostały poczynione w lutym 2017 roku. Wstępnie miał to być mały korpus pozwalający na ulepszenie metody statystycznego doboru najlepszego tłumaczenia w budowanym już wtedy polsko-śląskim i śląsko-polskim tłumaczu maszynowym. Bardzo szybko jednak zebrane teksty zaczęły przekraczać wcześniej założoną objętość, co spowodowało, że Korpus Ślōnskij Mŏwy stał się autonomicznym w stosunku do tłumacza przedsięwzięciem. Ten artykuł przedstawia zarys prac nad kolekcjonowaniem tekstów oraz informuje o niedoborach, które będą musiały zostać uzupełnione.

Metoda

Ponieważ język śląski jest językiem mniej zasobnym niż języki duże, należało na razie nie brać pod uwagę proporcjonalności [dobierania tekstów reprezentujących różne style i gatunki oraz terytoria w określonych proporcjach]. Zebrane zostały więc wszelkie dostępne autorowi teksty gwarowe, wydawnictwa literackie oraz artykuły prasowe.

Relatywnie najprostszym zadaniem było pozyskanie współczesnych tekstów literackich i prasowych ze względu na to, że są one tworzone za pomocą komputerów, a co za tym idzie, po minimalnej obróbce są one gotowe do przeszukiwania za pośrednictwem oprogramowania do obsługi korpusów. W wypadku wydawnictw papierowych wystarczyło więc skontaktować się z ich autorami i poprosić o udostępnienie komputeropisów. W przypadku zawartości publikowanej w Internecie wystarczyło skopiować znalezione teksty i wprowadzić do zbioru.

Więcej pracy wymagało pozyskanie starszych tekstów literackich. Te – wedle wiedzy autora i poza małymi wyjątkami – nigdy nie zostały wprowadzone do pamięci komputera w formie zwykłego tekstu. Z nowszych dzieł w zbiorze znalazły się „Bojki i godki śląskie” oraz „Godek i bojek śląskich ciąg dalszy” Brunona Strzałki, a także „Śląskie bery, bojki i opowiastki z dawnych lat” Augustyna Halotty. Wydawnictwa te zostały zeskanowane i poprzez technologię optycznego rozpoznawania znaków (OCR) przekonwertowane na zwykły tekst. Brak technologii OCR przystosowanej do którejkolwiek śląskiej pisowni spowodował, że efekty rozpoznawania bywały mniej niż dostateczne, więc wszystkie teksty musiały zostać ręcznie skorygowane. Z czasów sprzed drugiej wojny światowej do korpusu wprowadzono teksty śląskie z numerów „Zarania Śląskiego” udostępnionych w formie skanów w Śląskiej Bibliotece Cyfrowej. Ta część korpusu, ze względu na niską jakość druku z tamtych czasów, a także z powodu wieku zachowanych zeszytów, musiała zostać ręcznie przepisana. Dzięki Mirosławowi Syniawie znalazły się w korpusie też „Placz a narzykani predykantuw ze Ślonska wygnanych w namysłowskim kraju”, satyra z połowy XVII wieku nieznanego autora również dostępna w formie skanów rękopisu w ŚBC, a także „Prośliccy” Hermanna Koellinga z 1887 roku.

Spośród starszych tekstów nieliterackich znalazły się w korpusie trzy roczniki (1920-1922) gawęd zamieszczanych w „Kocyndrze” oraz dwadzieścia dwa roczniki (1924-1952) „Gawęd Stacha Kropiciela”. Pierwsze z nich, podobnie jak teksty z „Zarania Śląskiego”, zostały przepisane przez autora. Drugie zostały skompilowane przez Mirosława Syniawę ze skanów „Gościa Niedzielnego” dostępnych w Śląskiej Bibliotece Cyfrowej.

Najwięcej nakładów wymagała praca nad tekstami gwarowymi. Ponieważ teksty takie notują wymowę gwarową poprzez użycie alfabetu fonetycznego, należało najpierw zdecydować się na transliterację materiału do alfabetu bardziej zbieżnego z resztą zbioru. Zdecydowano się więc na opracowany w 2010 roku alfabet, w którym najpierw wydany został elementarz do nauki języka śląskiego w najmłodszych klasach (Gōrnoślōnski Ślabikŏrz 2010), a w kolejnych latach pojawiły się dziesiątki oryginalnych publikacji literackich (np.: Melon 2015; Szyma 2017), jak też przekładów literatury światowej (np.: Ajschylos 2013; Syniawa 2014; Dickens 2017; Twardoch 2018; de Saint-Exupéry 2018).

Wybranie alfabetu niefonetycznego wiązało się z częściowym zrezygnowaniem z oddawania specyfiki wymowy poszczególnych regionów lub osób. Być może dana wymowa mogłaby w późniejszej pracy zostać dodana jako jeden z tagów podczas anotowania zbiorów. Nie ingerowano w gramatykę ani leksykę tekstów. Mimo zaleceń alfabetu ślabikŏrzowego o fleksji (Syniawa 2010: 59) końcówki narzędnika liczby mnogiej rzeczowników zawierających końcówkę -ōma w rejonach, gdzie taka odmiana występuje, pozostawione zostały bez zmian. Ze względu na całkowitą kompatybilność odmian zmieniono natomiast końcówki czasu przeszłego -ōła, –ōło na -yła –yło, końcówki rzeczowników męskich w dopełniaczu -ygo na -ego, końcówki odmiany nijakiej i niemęskoosobowej -y na -e (np.: taky dugy na take duge), a także pominięto antycypację miękkości. Najstarsze stransliterowane i wprowadzone do korpusu teksty gwarowe pochodzą z roku 1869 (Malinowski 1899; Malinowski 1901), zaś najnowsze z początku lat 60. XX wieku (Dobrzyński 1967).

Teksty literackie i prasowe pozostawione zostały w większości w niezmienionej formie. Wyjątkami są sztuka teatralna „Polák w Śląsku lebo dwá wachtárze w jednej dziedzinie” Edwarda Świerkiewicza oraz „Ostatni gwojźdźaurz” i „Z naszej źymjy ślůnskej” Feliksa Steuera. Decyzja taka została podjęta ze względu na wyjątkowość użytych w nich alfabetów w stosunku do reszty zbioru. Wszystkie trzy pozycje zostały przetransliterowane do alfabetu ślabikŏrzowego.

Wyniki

Zebrane zostało archiwum tekstów śląskich zawierające 2 001 281 słowoform. Poniższa tabela przedstawia podział na rodzaje zawartych w nim materiałów.

Rodzaj	Liczba słowoform	Udział (procent)
literatura piękna i beletrystyka	1067478	53,34
artykuły prasowe	599440	29,95
teksty gwarowe	269371	13,46
teksty religijne	16992	0,85
pamiętniki	15285	0,76
eseje	12509	0,63
korespondencja	647	0,03
inne	19559	0,98
Suma	2001281	100

W ramach artykułów prasowych zawarte są teksty informacyjne i publicystyka (zarówno ta drukowana dawniej w formie gawęd, jak i publikowana w nowoczesnych mediach elektronicznych, również blogach). Nie zmieściły się w żadnej z powyższych kategorii statusy w mediach społecznościowych, przysłowia oraz zapisy z protokołów sądowych.

Wyraźnie zaznacza się przewaga tekstów pisanych nad mówionymi. Wynika to z tych samych problemów, jakie występują przy budowie innych korpusów, to znaczy z ograniczeń czasowych i finansowych przy pozyskiwaniu takich danych. Z tego powodu jedynie dziesięć procent British National Corpus to teksty mówione (Burnard 2007), a podobnie wyglądają liczby w przypadku Narodowego Korpusu Języka Polskiego (Przepiórkowski i in. 2012).

W przypadku podziału na poszczególne epoki w historii Górnego Śląska rozkład wygląda następująco:

Okres	Liczba słowoform	Udział (procent)
1574-1921	246391	12,31
1922-1944	319536	15,97
1945-1989	323477	16,16
1990-2018	1111877	55,56
Suma	2001281	100

Widoczna jest przewaga tekstów współczesnych, które stanowią ponad połowę zgromadzonego materiału. Nie jest to jednak efekt wzrostu zainteresowania śląskim piśmiennictwem w ostatnich latach, a raczej tego, że teksty współczesne są łatwiej dostępne w formie gotowej do obróbki. Jak wcześniej wspomniano, w ŚBC znajduje się bardzo duża liczba artykułów prasowych z okresu międzywojennego w języku śląskim, które nie zostały jeszcze pozyskane. Wprowadzenie ich do korpusu mogłoby spowodować duże zmiany w proporcjach zarówno gdy idzie o epoki w historii Górnego Śląska, jak też rodzaje zebranego materiału.

Rozkład terytorialny pozyskanych tekstów przedstawiony jest w kolejnej tabeli.

Powiat	Liczba słowoform	Udział (procent)
bielski	520	0,03
bieruńsko-lędziński*	389667	19,47
Bruntál	6287	0,31
Bytom*	201050	10,05
Chorzów*	87138	4,35
cieszyński	32495	1,62
Frýdek-Místek	22149	1,11
Gliwice*	49482	2,47
gliwicki*	8442	0,42
głubczycki	20829	1,04
Karviná*	22073	1,10
Katowice*	212000	10,59
kędzierzyńsko-kozielski	24828	1,24
kluczborski	15883	0,79
krapkowicki	9852	0,49
lubliniecki	30768	1,54
mikołowski*	12324	0,62
Mysłowice*	102049	5,10
nyski	7451	0,37
oleski	945	0,05
Opole	20379	1,02
opolski	31076	1,55
Piekary Śląskie*	1565	0,08
prudnicki	37693	1,88
pszczyński	48626	2,43
raciborski	154843	7,74
rybnicki*	16660	0,83
Rybnik*	152420	7,62
Siemianowice Śląskie*	6554	0,33
strzelecki	12918	0,65
Świętochłowice*	602	0,03
tarnogórski*	2356	0,12
wodzisławski*	226800	11,33
Zabrze*	302	0,02
nieznane	32255	1,61
Suma	2001281	100

Zaznacza się tu przewaga powiatów, z których pochodzą współcześni autorzy. Wyraźnie też widać, że bardzo aktywna w twórczości w języku śląskim jest przemysłowa część Górnego Śląska (powiaty oznaczone gwiazdką), z której pochodzi 76,14 procent tekstów. Żadnej reprezentacji w korpusie nie posiadają powiaty: Bielsko-Biała, brzeski, Jastrzębie-Zdrój, Jeseník, namysłowski, Opava, Ostrava, Ruda Śląska, Tychy, Żory.

W celu udostępnienia korpusu zbudowany został serwis internetowy SilLing², który składa się z trzech części. Pierwsza część zawiera informacje dotyczące Korpusu Ślōnskij Mŏwy oraz krótkie wprowadzenie do tego, jak go używać. Druga część to wspomniany wyżej maszynowy tłumacz polsko-śląski i śląsko-polski. Część trzecia pozwala na dostęp do korpusu.

Interfejs KonText, za pomocą którego udostępniony został zbiór tekstów, stworzony został przez Instytut Czeskiego Korpusu Narodowego. Jest to interfejs oparty na systemie NoSketch Engine, a rozwijany jest on od 2014 roku. Oprogramowanie rozpowszechniane jest na licencji open-source GNU GPL 2 (Machálek 2017).

Publicznie udostępnione zostało 55 procent zebranego materiału. Na drodze do umieszczenia całości tekstów stanęła niemożność uzyskania zgód na publikację poszczególnych tekstów spowodowana trudnościami w znalezieniu spadkobierców zmarłych autorów, bezpośrednim brakiem zgody, a także brakiem odpowiedzi na próbę kontaktu.

Wnioski

Zebranie Korpusu Ślōnskij Mŏwy stworzyło narzędzie badawcze bez precedensu w dotychczasowych pracach nad językiem śląskim. Otwarcie się na artykuły prasowe pozwoliło natomiast dotrzeć do leksyki nienotowanej nawet w najpełniejszych opracowaniach. W „Słowniku Gwar Śląskich” (SGŚ) redagowanym w Opolu przez zespół pod przewodnictwem Bogusława Wyderki brak jest hasła elf należącego do frazeologizmu mieć elf pod nosym. Nie notuje też takiego związku słownik frazeologizmów Lidii Przymuszały (Przymuszała 2013), ani amatorski „Słownik Gōrnoślōnskij Gŏdki” (SGG) Bogdana Kallusa. Formę taką można znaleźć w numerach 2. i 4. „Kocyndra” z 1920 roku:

Downiej przezywali mie „ty zielony śpiku”, wtedych jeszcze mioł elf pod nosem, ale teroz kiebych łostoł zielonką, żodno porządna dzioucha nie wejrzałaby na mie.

Ale to nie lo mnie, bo niemom elf pod nosem i kuża se cygarety.

Dalsze badanie pozwoliło znaleźć ten sam frazeologizm w powieści „Pękły okowy” Macieja Wierzbińskiego z 1929 roku niebędącej częścią korpusu:

— Głupio byłaby ta dziołcha, któraby przała takiemu buksowi, co ma elf pod nosem.

Również w „Kocyndrze” udało się znaleźć słownictwo, którego wyrazy pokrewne są notowane:

Tak klajturza ło posłach, choćbychto nie miała inkszej starości.³

Ale tak se klajturza a tu przed świętami mom roboty, co sie ani nie byda mogła z nij wykopać.⁴

Ale klajturza se ło bylekim, a tu przeca wożniejsze sóm sprawy do wspominanio.⁵

SGG nie notuje ani tego, ani pokrewnych słów, natomiast SGŚ notuje formę klajtura oznaczającą (1) człowieka gadatliwego, (2) człowieka skłonnego do plotek; plotkarza, lub (3) niesprawdzoną, kłamliwą pogłoskę; plotkę.

Dostęp do korespondencji oraz tekstów stylizowanych na korespondencję pozwolił dotrzeć do sformułowania pozdrŏwiać na x razy, które występuje w tekstach o charakterze korespondencji
z różnych części Górnego Śląska:

Pozdrowio cie na kopaset razy Twój Francek Fyrtok.⁶

Libe Faterliczku!
Pozdrawuia waus tes na sto tysięcy razy i donosa wom ze iestech z laski Boga zdrow, […]⁷

Dalsze badanie pozwoliło znaleźć w tekstach spoza korpusu:

Na sto tysięcy razy bądź pozdrowiona, Królowa niebieska niepokalana.⁸

Pozdrawiam was najprzód na sto tysięcy razy, […]⁹

Dwa ostatnie przykłady, choć stylizowane na polski dialekt literacki, mają zdecydowanie śląski charakter. Dowodzi go użycie wspomnianego frazeologizmu, który występuje wyłącznie w tekstach z Górnego Śląska. Nie notuje takiego związku frazeologicznego słownik Przymuszały, nie notują również ani jego, ani słowa kopaset SGG ani SGŚ. Wydaje się, że wymaga to zatem dalszych badań, co zarazem będzie służyć pomocą badaczom epistolografii i grzeczności językowej.

Potrzeby

Potrzebne będzie rozszerzenie materiału pochodzącego z dzienników i czasopism ze szczególnym naciskiem na lata 1850-2000. Źródło w postaci skanów jest już ogólnodostępne w Śląskiej Bibliotece Cyfrowej. Niezbędne będzie też dalsze rozszerzanie materiałów współczesnych autorów. Nie ma w zbiorach na przykład przekładu Nowego Testamentu Gabriela Tobora (Nowy Testamynt po ślonsku 2017). Kolejne wersje korpusu będą więc większe, być może wielokrotnie. Wskazane byłoby również stworzenie podkorpusu anotowanego.

Dostęp do korpusu otwiera również drogę do opracowania elektronicznego słownika śląskiego wraz z odmianą słów. Podobne przedsięwzięcie jest już w budowie¹⁰, ale wydaje się, że potrzebne będzie rozwiązanie szersze, zawierające również informacje o rejestrze, z którego pochodzi dany wyraz, a w dalszej kolejności także etymologii.

Możliwe będzie także opracowanie gramatyki śląskiej uwzględniającej lokalne różnice odmiany. Gramatyka taka mogłaby być uzupełnieniem istniejącego już Gōrnoślōnskigo Ślabikŏrza będącym pomocą zarówno dla nauczycieli, jak też dla uczniów i osób chcących samodzielnie uczyć się języka śląskiego.

Zebranie tak dużego archiwum pozwoli też na opracowanie korektora dla komputerowych edytorów tekstu oraz dla klawiatur używanych na telefonach i tabletach.

Podziękowania

Szczególne podziękowania należą się Urzędowi Marszałkowskiemu Województwa Śląskiego, który na finalizację opracowania Korpusu Ślōnskij Mŏwy postanowił przeznaczyć stypendium Marszałka Województwa Śląskiego. Takie same podziękowania należą się Mirosławowi Syniawie, który przekazał do korpusu przepisany przez siebie ze skanów ogromny zbiór „Gawęd Stacha Kropiciela”. Należy też podziękować wszystkim autorom, którzy przekazali swoje dzieła i zgodzili się na ich publikację w otwartej części korpusu. Praca nie powstałaby również bez osób wspierających finansowo budowanie korpusu za pośrednictwem serwisu Patronite.pl. Część z nich – zgodnie z warunkami zamieszczonymi w serwisie – ma status współautorów.

Bibliografia

Ajschylos, 2013, Prōmytojs przibity, ślōnskŏ translacyjŏ Zbigniew Kadłubek, Silesia Progress, Kotórz Mały.

Bąk Stanisław, 1939, Teksty gwarowe z polskiego Śląska, PAU, Kraków.

Burnard Lou, 2007, Reference Guide for the British National Corpus (XML Edition), http://www.natcorp.ox.ac.uk/docs/URG/.

Czesak Artur, 2015, Współczesne teksty śląskie na tle procesów językotwórczych i standaryzacyjnych współczesnej Słowiańszczyzny, Księgarnia Akademicka, Kraków.

Dickens Charles, 2017, Godniŏ Pieśń, przekład Grzegorz Kulik, Silesia Progress, Kotórz Mały.

Dobrzyński Walenty, 1967, Gwary powiatu niemodlińskiego, cz. II, „Zeszyty Naukowe WSP w Opolu”, Wrocław.

Ghani Rayid, Jones Rosie, Mladenić Dunja, 2001, Mining the Web to Create Minority Language Corpora, [w:] Proceedings of the 10th international conference on Information and knowledge management, Athens, Georgia.

Ghani Rayid, Jones Rosie, Mladenić Dunja, 2005, Building Minority Language Corpora by Learning to Generate Web Search Queries, [w:] Knowledge and Information Systems, January 2005, Volume 7, Issue 1.

Gōrnoślōnski Ślabikŏrz, Pro Loquela Silesiana, Chorzów 2010.

Karaś Halina, 2014, O planowanym Korpusie Gwar Polskich, [w:] Badania dialektologiczne. Stan, perspektywy, metodologia. Materiały konferencji naukowej „Gwara i tekst” Kraków, 27 września 2013 r., red. Maciej Rak, Kazimierz Sikora, Księgarnia Akademicka, Kraków, s. 33-43.

Lubaś Władysław, red., 1978, Teksty języka mówionego mieszkańców Górnego Śląska i Zagłębia, Wyd UŚ, Katowice.

Lüdeling Anke, Merja Kytö, red., 2008, Corpus Linguistics. An International Handbook, Walter de Gruyter, Berlin, New York.

Machálek Tomáš, 2017, KonText – a modern customizable corpus query interface, CL2017.

Malinowski Lucyan, 1899, Powieści ludu polskiego na Śląsku, Akademia Umiejętności, Kraków.

Malinowski Lucyan, 1901, Powieści ludu polskiego na Śląsku, cz. 2, Akademia Umiejętności, Kraków.

Melon Marcin, 2015, Kōmisorz Hanusik. We tajnyj sużbie ślōnskij nacyje, Silesia Progress, Kotórz Mały.

Nitsch Kazimierz, 1929, W sprawie naukowego zbioru tekstów śląskich, Zaranie Śląskie, V, z. 4, s. 195-196.

Nowy Testamynt po ślonsku, przekład Gabriel Tobor, Tobor, Radzionków 2017.

O’Keefe Anne, McCarthy Michael, red., 2010, The Routledge Handbook of Corpus Linguistics, Routledge, London, New York.

Pluta Feliks, 1964, Dialekt głogówecki, cz. 2, „Zeszyty Naukowe WSP w Opolu”, Wrocław.

Przepiórkowski Adam, Bańko Mirosław, Górski Rafał L., Lewandowska-Tomaszczyk Barbara, red., 2012, Narodowy Korpus Języka Polskiego, PWN, Warszawa.

Przymuszała Lidia, 2013, Słownik frazeologizmów i typowych połączeń wyrazowych w gwarach śląskich, Wyd. UO, Opole.

Resnik Philip, 1999, Mining the Web for Bilingual Text, [w:] Proceedings of the 37th Annual Meeting of the Association for Computational Linguistics (ACL’99), College Park, Maryland.

de Saint-Exupéry Antoine, 2018, Mały Princ, przekład Grzegorz Kulik, Media Rodzina, Poznań.

Scannell Kevin P., 2007, The Crúbadán Project: Corpus building for under-resourced languages [w:] Building and Exploring Web Corpora, Proceedings of the 3rd Web as Corpus Workshop, incorporating Cleaneval, Fairon, Cédrick & Naets, Hubert & Kilgarriff, Adam & Schryver, Gilles-Maurice de, Presses universitaires de Louvain, s. 5-16.

Sobierajski Zenon, 1960, Polskie teksty gwarowe z ilustracją dźwiękową, I Gwary śląskie, Poznańskie Towarzystwo Przyjaciół Nauk.

Sobierajski Zenon, 1961, Polskie teksty gwarowe z ilustracją dźwiękową, II Śląsk – Wielkopolska, Poznańskie Towarzystwo Przyjaciół Nauk.

Steuer Feliks, 1934, Dialekt sulkowski, PAU, Kraków.

Syniawa Mirosław, 2010, Ślabikŏrz niy dlŏ bajtli abo lekcyje ślōnskij gŏdki, Pro Loquela Silesiana, Chorzów.

Syniawa Mirosław, 2014, Dante i inksi, Silesia Progress, Kotórz Mały.

Szyma Rafał, 2017, Leanderka, Silesia Progress, Kotórz Mały.

Tambor Jolanta, 2006, Mowa Górnoślązaków oraz ich świadomość językowa i etniczna, Wyd. UŚ, Katowice.

Twardoch Szczepōn, 2018, Drach. Edycyjŏ ślōnskŏ, przekład Grzegorz Kulik, Wydawnictwo Literackie, Kraków.

1Dostępne na http://crubadan.org/languages/szl.

2Dostęp: https://silling.org.

3Kocynder, 2/1922.

4Kocynder, 8/1922.