PDF

Corpus-based quantitative dialectology

https://doi.org/10.54013/kk730a3

Keywords: Estonian dialects, research methods, dialect corpus, variation studies

The article gives an overview of the directions and trends in dialectology with an emphasis on Estonian dialectology. We compare different methods and approaches for studying local language varieties: traditional dialectology based on the historical-comparative method, atlas-based dialectology, variation studies which stem from variationist sociolinguistics, and corpus-based approaches, which have been gaining momentum in recent years thanks to the compilation and development of the Estonian Dialect Corpus. In the article, we give an overview of the type of data and methods these approaches use. While traditional dialectology collected abundant qualitative data, which were based on texts and questionnaires, in order to compile dialect descriptions, dictionaries and atlases, newer, corpus-based methods use frequency data obtained from the corpus for comparing the dialects, model­ing the variation, and examining aggregate distributions of linguistic phenomena in the corpus. The latter means comparing dialects and their linguistic distances on the basis of analysing the distributions of many linguistic features. The methodology used in corpus-based quantitative dialectology is rich and constantly developing, enabling the researcher to account for more and more aspects underlying linguistic variation.

Liina Lindström (b. 1973), PhD, University of Tartu, Institute of Estonian and General Linguistics, Associate Professor of Estonian Language, liina.lindstrom@ut.ee

Maarja-Liisa Pilvik (b. 1989), PhD Student, University of Tartu, Faculty of Arts and Humanities, Institute of Estonian and General Linguistics, Junior Research Fellow, maarja-liisa.pilvik@ut.ee

References

Võrguviited

ArchiMob = Archimob corpus of Swiss German, University of Zurich. https://www.spur.uzh.ch/en/departments/research/textgroup/ArchiMob.html (24. VIII 2018).

ASIt = Atlante Sintattico d’Italia, Università di Padova, Università di Venezia. http://asit.maldura.unipd.it (24. VIII 2018).

DynaSAND = Dynamic Syntactic Atlas of the Dutch dialects. Sjef Barbiers jt 2006. Amsterdam: Meertens Institute. http://www.meertens.knaw.nl/sand/ (24. VIII 2018).

EMK = http://www.murre.ut.ee/murdekorpus/ (24. VIII 2018).

EMSA = http://www.murre.ut.ee/arhiiv/ (24. VIII 2018).

EMSUKA = http://emsuka.eki.ee/ (24. VIII 2018).

FRED = Freiburg English Dialect Corpus. Albert-Ludwigs-Universität Freiburg. http://www2.anglistik.uni-freiburg.de/institut/lskortmann/FRED/ (24. VIII 2018).

GDC = Georgian Dialect Corpus. http://corpora.co/ (24. VIII 2018).

Lauseopin arkisto = Turun yliopisto, kieli- ja käännöstieteiden laitos, Kotimaisten kielten keskus, 1985. Lauseopin arkiston murrekorpuksen Helsinki-Korp-versio [tekstikorpus]. Kielipankki. http://urn.fi/urn:nbn:fi:lb-2016040702 (24. VIII 2018).

MKWEB = http://www.murre.ut.ee/mkweb/ (24. VIII 2018).

REDE = Regionalsprache.de. Akademie der Wissenschaften und der Literatur – Mainz. https://www.regionalsprache.de/en/Default.aspx (24. VIII 2018).

RuRaKe = http://rurake.keeleressursid.ee/index.php/dialect-maps/ (24. VIII 2018).

Kirjandus

Ariste, Paul 1956. Läänemere keelte kujunemine ja vanem arenemisjärk. – Eesti rahva etnilisest ajaloost. Toim Harri Moora. Tallinn: Eesti Riiklik Kirjastus, lk 5–23.

Baayen, R. Harald 2008. Analyzing Linguistic Data: A Practical Introduction to Statistics Using R. Cambridge: Cambridge University Press. https://doi.org/10.1017/CBO9780511801686

Breiman, Leo, Friedman, Jerome, Olshen, Richard A., Stone, Charles J. 1984. Classification and Regression Trees. Belmont, Calif.: Wadsworth.

Carrilho, Ernestina 2010. Tools for dialect syntax: The case of CORDIAL-SIN (An annotated corpus of Portuguese dialects). – Anuario del Seminario de Filología Vasca „Julio de Urquijo”, nr 53, lk 57–70.

Cedergren, Henrietta J., Sankoff, David 1974. Variable rules: Performance as a statistical reflection of competence. – Language, kd 50, nr 2, lk 333–355. https://doi.org/10.2307/412441

Everitt, Brian S., Landau, Sabine, Leese, Morven, Stahl, Daniel 2011. Cluster Analysis. 5., parandatud ja täiendatud väljaanne. Chichester: Wiley-Black­well. https://doi.org/10.1002/9780470977811

Goebl, Hans 2018. Dialectometry. – The Handbook of Dialectology. Toim ­Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 123–142. https://doi.org/10.1002/9781118827628.ch7

Grafmiller, Jason, Szmrecsanyi, Benedikt, Röthlisberger, Melanie, Heller, Benedikt (toim) 2017. Probabilistic Grammars: Syntactic Variation in a Comparative Perspective. – Special Collection. Glossa: A Journal of General Linguistics. https://www.glossa-journal.org/collections/special/probabilistic-grammars-syntactic-variation/ (24. VIII 2018).

Greenacre, Michael 2007. Correspondence Analysis in Practice. 2. tr. Boca Raton Fla.: CRC Press. https://doi.org/10.1201/9781420011234

Gries, Stefan Th. 2009. Statistics for Linguistics with R. A Practical Introduction. Berlin: De Gruyter Mouton. https://doi.org/10.1515/9783110216042

Grieve, Jack 2014. A comparison of statistical methods for the aggregation of regional linguistic variation. – Aggregating Dialectology, Typology, and Register Analysis: Linguistic Variation in Text and Speech. Toim Benedikt Szmrecsanyi, Bernhard Wälchli. Berlin: Walter de Gruyter, lk 53–88. https://doi.org/10.1515/9783110317558.53

Grieve, Jack 2018. Spatial statistics for dialectology. – The Handbook of Dialectology. Toim Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 415–433. https://doi.org/10.1002/9781118827628.ch24

Heeringa, Wilber, Prokić, Jelena 2018. Computational Dialectology. – The Handbook of Dialectology. Toim Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 330–347. https://doi.org/10.1002/9781118827628.ch19

Hennoste, Tiit, Muischnek, Kadri 2000. Eesti kirjakeele korpuse tekstide valiku ja märgendamise põhimõtted ning kahe allkeele võrdluse katse. − Arvutuslingvistikalt inimesele. (Tartu Ülikooli üldkeeleteaduse õppetooli toimetised 1.) Tartu: Tartu Ülikooli Kirjastus, lk 183−317.

Hey, Tony, Tansley, Stewart, Tolle, Kristin M. 2009. The Fourth Paradigm: Data-Intensive Scientific Discovery. Kd 1. Redmond, WA: Microsoft Research.

Honkola, Terhi 2016. Macro- and Microevolution of Languages: Exploring Linguistic Divergence with Approaches from Evolutionary Biology. (Turun Yliopiston julkaisuja – Annales Universitatis Turkuensis. Ser. C AII.) Turku: Turun yliopisto.

Hoyningen-Huene, Paul 2018. The Human Sciences between Quantification and Hermeneutics. – Loeng Tartu Ülikoolis 6. II 2018.

Ikola, Osmo 1960. Perfektin ja pluskvamperfektin synnystä. – Virittäjä, kd 64, lk 364–368.

Janda, Laura A. (toim) 2013. Cognitive Linguistics – The Quantitative Turn: The Essential Reader. Walter de Gruyter. https://doi.org/10.1515/9783110335255

Johannessen, Janne Bondi, Priestley, Joel, Hagen, Kristin, Åfarli, Tor Anders, Vangsnes, Øystein Alexander 2009. The Nordic Dialect Corpus – an advanced research tool. – Proceedings of the 17th Nordic Conference of Computational Linguistics NODALIDA 2009. (NEALT Proceedings Series 4.) Toim K. Jokinen, E. Bick. Odense: Northern European Association for Language Technology (NEALT), lk 73–80.

Juhkam, Evi 2012. Harju-Madise murrak. Toim Mari-Liis Kalvik, Helmi Neetar. Tallinn: Eesti Keele Sihtasutus.

Juhkam, Evi, Sepp, Aldi 2000. Läänemurde tekstid. (Eesti murded VIII.) Tallinn: Eesti Keele Instituut.

Kitchin, Rob 2014. The Data Revolution: Big Data, Open Data, Data Infrastructures and Their Consequences. London: Sage. https://doi.org/10.4135/9781473909472

Klavan, Jane, Pilvik, Maarja-Liisa, Uiboaed, Kristel 2015. The use of multi­variate statistical classification models for predicting constructional choice in spoken, non-standard varieties of Estonian. – SKY Journal of Linguistics, nr 28, lk 187–224.

Kretzschmar, William A. 2018. Linguistic Atlases. – The Handbook of Dialectol­ogy. Toim Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 57–72. https://doi.org/10.1002/9781118827628.ch3

Krikmann, Arvo, Pajusalu, Karl 2000. Kus on keskmurde keskpunkt. – Inter dialectos nominaque. Pühendusteos Mari Mustale 11. novembril 2000. Toim Jüri Viikberg. Tallinn: Eesti Keele Sihtasutus, lk 131–172.

Laakso, Johanna 2001. The Finnic languages. – Circum-Baltic Languages, kd I: Past and Present. Toim Östen Dahl, Maria Koptjevskaja-Tamm. Amsterdam–Philadelphia: John Benjamins Publishing Company, lk 179–212. https://doi.org/10.1075/slcs.54.09laa

Laanest, Arvo 1975. Sissejuhatus läänemeresoome keeltesse. Tallinn: Eesti NSV Teaduste Akadeemia Keele ja Kirjanduse Instituut.

Lebart, Ludovic, Salem, André, Berry, Lisette 1998. Exploring Textual Data. Dordrecht: Kluwer Academic Publishers. https://doi.org/10.1007/978-94-017-1525-6

LePage, R. B. 1997. The evolution of a Sociolinguistic Theory of Language. – The Handbook of Sociolinguistics. Toim Florian Coulmas. Oxford: Blackwell, lk 15–32.

Levshina, Natalia 2015. How to do Linguistics with R: Data Exploration and Statistical Analysis. Amsterdam–Philadelphia: John Benjamins Publishing Company. https://doi.org/10.1075/z.195

Lindström, Liina 2001. Eesti murrete korpuse iseloomustus argivestlusega võrrelduna. – Keele kannul. Pühendusteos Mati Erelti 60. sünnipäevaks 12. märtsil 2001. (Tartu Ülikooli eesti keele õppetooli toimetised 17.) Tartu: Tartu Ülikooli Kirjastus, lk 212–221.

Lindström, Liina 2015. Ülevaade eesti murrete korpusest seisuga 17.11.2015. https://www.keel.ut.ee/sites/default/files/www_ut/emk_teejuht2015.pdf (18. VIII 2018).

Lindström, Liina 2017. Partitive subjects in Estonian dialects. – ESUKA/JEFUL, kd 8, nr 2, lk 191–231. https://doi.org/10.12697/jeful.2017.8.2.07

Lindström, Liina, Kalmus, Mervi, Klaus, Anneliis, Bakhoff, Liisi, Pajusalu, Karl 2009. Ainsuse 1. isikule viitamine eesti murretes. – Emakeele Seltsi aastaraamat 54 (2008). Tallinn: Emakeele Selts, lk 159–185.

Lindström, Liina, Lonn, Varje, Mets, Mari, Pajusalu, Karl, Teras, Pire, Veismann, Ann, Velsker, Eva, Viikberg, Jüri 2001. Eesti murrete korpus ja kolme murde sagedasema sõnavara võrdlus. − Keele kannul: pühendusteos Mati Erelti 60. sünnipäevaks 12. märtsil 2001. (Tartu Ülikooli eesti keele õppetooli toimetised 17.) Tartu: Tartu Ülikooli Kirjastus, lk 186−211.

Lindström, Liina, Pilvik, Maarja-Liisa, Plado, Helen 2018. Nimetamiskonstruktsioonid eesti murretes: murdeerinevused või suuline süntaks? – Mäetagused, nr 70, lk 91−126. https://doi.org/10.7592/MT2018.70.lindstrom_pilvik_plado

Lindström, Liina, Pilvik, Maarja-Liisa, Ruutma, Mirjam, Uiboaed, Kristel 2015. Mineviku liitaegade kasutusest eesti murretes keelekontaktide valguses. – Aig õdagumeresoomõ keelin. Aeg läänemeresoome keeltes. (Võro Instituudi toimõndusõq 29.) Võro, lk 39−70.

Lindström, Liina, Pilvik, Maarja-Liisa, Ruutma, Mirjam, Uiboaed, Kristel 2018 (ilmumas). On the use of perfect and pluperfect in Estonian dialects: Frequency and language contacts. – Plurilingual Finnic. Change of Finnic languages in a multilinguistic environment. (Uralica Helsingiensia.) Toim Sofia Björklöf, Santra Jantunen. Helsinki: Finno-Ugrian Society. https://doi.org/10.33341/uh.85035

Lindström, Liina, Uiboaed, Kristel 2017. Syntactic variation in ‘need’-con­structions in Estonian dialects. – Nordic Journal of Linguistics, kd 40, nr 3, lk 313–349. https://doi.org/10.1017/S0332586517000191

Lindström, Liina, Uiboaed, Kristel, Vihman, Virve-Anneli 2014. Varieerumine tarvis-/vaja-konstruktsioonides keelekontaktide valguses. – Keel ja Kirjandus, nr 8–9, lk 609–630. https://doi.org/10.54013/kk682a4

McEnery, Tony, Hardie, Andrew 2013. The history of corpus linguistics. – The Oxford Handbook of the History of Linguistics. Toim Keith Allan. Oxford: Oxford University Press, lk 727–746. https://doi.org/10.1093/oxfordhb/9780199585847.013.0034

Mets, Mari 2010. Suhtlusvõrgustikud reaalajas: võru kõnekeele varieerumine kahes Võrumaa külas. (Dissertationes philologiae estonicae Universitatis ­Tartuensis 25.) Tartu: Tartu Ülikooli Kirjastus.

Metslang, Helle, Lindström, Liina 2017. Chapter 3. The essive in Estonian. – Uralic Essive and the Expression of Impermanent State. (Typological Studies in Language 119.) Toim Casper de Groot. Amsterdam: John Benjamins Publishing Company, lk 57–90. https://doi.org/10.1075/tsl.119.03met

Meyers, Lawrence S., Gamst, Glenn C., Guarino, Anthony J. 2006. Applied Multivariate Research: Design and Interpretation. Thousand Oaks: Sage Publications.

Murumets, Sirje 1982. Eesti keeleala murdelisest liigendusest „Väikese murdesõnastiku” põhjal I–II. – Keel ja Kirjandus, nr 1, lk 11–17; 1983, nr 11, lk 615–623.

Must, Mari 1987. Kirderannikumurre. Häälikuline ja grammatiline ülevaade. Tallinn: Valgus: Eesti NSV Teaduste Akadeemia, Keele ja Kirjanduse Instituut.

Neetar, Helmi 1964. Aluse ja öeldise ühildumist mõjutavatest teguritest eesti murretes. – Emakeele Seltsi aastaraamat X (1964). Tallinn: Eesti NSV Teaduste Akadeemia Emakeele Selts, lk 151–166.

Neetar, Helmi 1965a. Aluse ja öeldise ühildumise seaduspärasustest eesti murretes. – Keel ja Kirjandus, nr 1, lk 25–29.

Neetar, Helmi 1965b. Aluse (kollektiivsubstantiivi) ja öeldise ühildumisest eesti murretes. – Emakeele Seltsi aastaraamat 11 (1965). Tallinn: Eesti NSV Teaduste Akadeemia Emakeele Selts, lk 185–193.

Nerbonne, John, Kleiweg, Peter 2007. Toward a dialectological yardstick. – Journal of Quantitative Linguistics, kd 14, nr 2–3, lk 148–166. https://doi.org/10.1080/09296170701379260

Nerbonne, John, Kretzschmar Jr., William A. 2013. Dialectometry++. – Liter­ary and Linguistic Computing, kd 28, nr 1, lk 2–12. https://doi.org/10.1093/llc/fqs062

Nerbonne, John, Wieling, Martijn 2018. Statistics for Aggregate Variationist Analyses. – The Handbook of Dialectology. Toim Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 400–414. https://doi.org/10.1002/9781118827628.ch23

Nigol, Salme 1994. Hargla murraku konsonantism. Toim Karl Pajusalu. Tallinn: Eesti TA Eesti Keele Instituut.

Nurkse, Rein 1937. Adjektiiv-atribuudi kongruentsist eesti keeles. (Akadeemilise Emakeele Seltsi toimetused 30.) Tartu: Akadeemilise Emakeele Seltsi Kirjastus.

Pajusalu, Karl, Velsker, Eva, Org, Ervin 1999. On recent changes in South Estonian: Dynamics in the formation of the inessive. – International journal of the Sociology of Language, kd 139, nr 1, lk 87–104. https://doi.org/10.1515/ijsl.1999.139.87

Paolillo, John C. 2002. Analyzing Linguistic Variation. Statistical Models and Methods. Stanford: CSLI Publications.

Pilvik, Maarja-Liisa 2017. Deverbal –mine action nominals in the Estonian dialect corpus. – ESUKA/JEFUL, kd 8, nr 2, lk 295–326. https://doi.org/10.12697/jeful.2017.8.2.10

Plado, Helen 2015. des– ja mata-konverbi kasutusest eesti murretes. – Emakeele Seltsi aastaraamat 60 (2014). Tallinn: Teaduste Akadeemia Kirjastus, lk 195–218. https://doi.org/10.3176/esa60.10

Pook, Hanna 2018. Pronoomeni kes kasutusest eesti murretes. Magistritöö. Tartu: Tartu Ülikool. http://hdl.handle.net/10062/60630

Rankin, Robert L. 2003. The comparative method. – The Handbook of Historical Linguistics. Toim Brian D. Joseph, Richard D. Janda. Oxford: Blackwell, lk 183–212. https://doi.org/10.1111/b.9781405127479.2004.00003.x

Ruutma, Mirjam 2016. Kaassõnad eesti murretes. Magistritöö. Tartu: Tartu Ülikool. http://hdl.handle.net/10062/51736

Ruutma, Mirjam, Kyröläinen, Aki-Juhani, Pilvik, Maarja-Liisa, Uiboaed, Kristel 2016. Ambipositsioonide morfosüntaktilise varieerumise kirjeldusi kvantitatiivsete profiilide abil. – Keel ja Kirjandus, nr 2, lk 92–113.

Rätsep, Huno 2003. Tartu ülikooli eesti keele arhiivi saamisloost ja saatusest. – 200 aastat eesti keele ülikooliõpet: 1803 eesti ja soome keele lektoraat Tartu ülikoolis. (Tartu Ülikooli eesti keele õppetooli toimetised 25.) Toim Mati Erelt, Valve-Liivi Kingisepp. Tartu: Tartu Ülikooli Kirjastus, lk 153–170.

Saareste, Andrus 1938. Eesti murdeatlas. I vihk. Tartu: Eesti Kirjanduse Selts.

Saareste, Andrus 1941. Eesti murdeatlas. II vihk. Tartu: Eesti Kirjanduse Selts.

Saareste, Andrus 1955. Petit atlas des parlers estoniens. Väike eesti murde­atlas. Uppsala: Almqvist & Wiksells.

Séguy, Jean 1973. La dialectométrie dans l’Atlas linguistique de la Gascogne. – Revue de linguistique romane, kd 37, nr 145–146, lk 1–24.

Serebrennikov, B. A. 1959. Pluskvamperfekti ja perfekti päritolu probleemist läänemeresoome keeltes. – Emakeele Seltsi aastaraamat IV (1958). Tallinn: Eesti Riiklik Kirjastus, lk 249–255.

Szmrecsanyi, Benedikt 2013. Grammatical Variation in British English Dialects: A Study in Corpus-Based Dialectometry. Cambridge: Cambridge University Press.

Szmrecsanyi, Benedikt 2014. Forests, trees, corpora, and dialect grammars. – Aggregating Dialectology, Typology, and Register Analysis: Linguistic Variation in Text and Speech. Toim B. Szmrecsanyi, Bernhard Wälchli. Berlin–Boston: Walter de Gruyter, lk 89–212. https://doi.org/10.1515/9783110317558.89

Szmrecsanyi, Benedikt, Anderwald, Lieselotte 2018. Corpus-Based Approa­ches to Dialect Study. – The Handbook of Dialectology. Toim Charles Boberg, John Nerbonne, Dominic Watt. Hoboken, NJ: Wiley-Blackwell, lk 300–313. https://doi.org/10.1002/9781118827628.ch17

Szmrecsanyi, Benedikt, Grafmiller, Jason, Heller, Benedikt, Röthlisberger, Melanie 2016. Around the world in three alternations: Modeling syntactic variation in varieties of English. – English World-Wide, kd 37, nr 2, lk 109–137. https://doi.org/10.1075/eww.37.2.01szm

Szmrecsanyi, Benedikt, Grafmiller, Jason, Bresnan, Joan, Rosenbach, Anette, Tagliamonte, Sali, Todd, Simon 2017. Spoken syntax in a compar­ative perspective: The dative and genitive alternation in varieties of English. – Glossa: A Journal of General Linguistics, kd 2, nr 1, artikkel 86. https://doi.org/10.5334/gjgl.310

Strobl, Carolin, Malley, James, Tutz, Gerhard 2009. An introduction to recursive partitioning: Rationale, application and characteristics of classification and regression trees, bagging and random forests. – Psychological Methods, kd 14, nr 4, lk 323–348. https://doi.org/10.1037/a0016973

Syrjänen, Kaj, Honkola, Terhi, Lehtinen, Jyri, Leino, Antti, Vesakoski, Outi 2016. Applying population genetic approaches within languages: Finnish dialects as linguistic populations. – Language Dynamics and Change, kd 6, nr 2, lk 235–283. https://doi.org/10.1163/22105832-00602002

Tagliamonte, Sali A. 2013. Analysing and interpreting variation in the sociolinguistic tradition. – Research Methods in Language Variation and Change. Toim Manfred Krug, Julia Schlüter. Cambridge: University Press, lk 382–401. https://doi.org/10.1017/CBO9780511792519.025

Tagliamonte, Sali A., Baayen, R. Harald 2012. Models, forests, and trees of York English: Was/were variation as a case study for statistical practice. – Language Variation & Change, kd 24, nr 2, lk 135–178. https://doi.org/10.1017/S0954394512000129

Tooding, Liina-Mai 2015. Andmete analüüs ja tõlgendamine sotsiaalteadustes. Teine, täiendatud väljaanne. Tartu: Tartu Ülikooli Kirjastus.

Uiboaed, Kristel 2013. Verbiühendid eesti murretes. (Dissertationes philologiae estonicae Universitatis Tartuensis 34). Tartu: Tartu Ülikooli Kirjastus.

Uiboaed, Kristel, Hasselblatt, Cornelius, Lindström, Liina, Muischnek, Kadri, Nerbonne, John 2013. Variation of verbal constructions in Estonian dialects. – Literary & Linguistic Computing, kd 28, nr 1, lk 42–62. https://doi.org/10.1093/llc/fqs053

Univere, Aili 1988. Idamurre. – Emakeele Seltsi aastaraamat 32 (1986). Tallinn: Eesti Raamat, lk 59–93.

Velsker, Eva 2000. Inessiivi lõpu varieerumine Vastseliina murrakus. Magistritöö Tartu Ülikooli eesti keele osakonnas.

Walker, James A. 2013. Variation analysis. – Research Methods in Linguistics. Toim Robert J. Podesva, Devyani Sharma. Cambridge: University Press, lk 440–459.

Wolk, Christoph, Szmrecsanyi, Benedikt 2016. Top-down and bottom-up advances in corpus-based dialectometry. – The Future of Dialects. Selected papers from Methods in Dialectology XV. Toim Marie-Hélène Côté, Remco Knooihuizen, John Nerbonne. Berlin: Language Science Press, lk 225–244.