Bodossaki Lectures on Demand
ΙΔΡΥΜΑ ΜΠΟΔΟΣΑΚΗ

Representativeness and comparability of historical corpora: The Helsinki experience

Nevalainen Terttu

28 Ιουνίου 2013

ΟΜΙΛΙΕΣ
EXIT FULL SCREEN VIDEO & SLIDES
ΔΙΑΡΚΕΙΑ 34:37 ΠΡΟΒΟΛΕΣ 1016
ΔΙΑΦΑΝΕΙΕΣ /

Αντιπροσωπευτικότητα και συγκρισιμότητα των ιστορικών σωμάτων κειμένων: Η εμπειρία του Σώματος Κειμένων του Ελσίνκι

Η πρόσβαση σε συγκρίσιμα δεδομένα είναι θεμελιώδης για τη μελέτη της γλωσσικής ποικιλότητας και της γλωσσικής αλλαγής στη διάρκεια του χρόνου. Ωστόσο, όσο ευρύτερη είναι η επιλογή των ιστορικών κειμένων και όσο πιο πίσω ανάγεται χρονικά, τόσο δυσκολότερο γίνεται να επιτύχουμε άμεση συγκρισιμότητα. Για να βελτιστοποιήσουν την κειμενική συνέχεια στη διάρκεια του χρόνου, οι σχεδιαστές σωμάτων κειμένων χρησιμοποιούν πλαίσια και μονάδες σταθερής δειγματοληψίας. Αυτό ήταν και ο στόχος των δημιουργών του Helsinki Corpus of English Texts (HC, 8ος-18ος αιώνας), που περιλαμβάνει πλήθος κειμενικών ειδών, καθώς και των εκδοχών του που είναι γραμματικά επισημειωμένες και της επέκτασής του στην Ύστερη Σύγχρονη Αγγλική (PPCMBE, 1700–1914). Εφόσον τα κειμενικά γένη και είδη επιδεικνύουν ποικίλους βαθμούς συγχρονικής ποικιλότητας και υφίστανται διαχρονικές αλλαγές, η απόφαση να διατηρηθούν σταθερές οι μονάδες δειγματοληψίας δεν είναι απαλλαγμένη από προβλήματα: τα κείμενα αποτελούν το προϊόν ποικίλων πρακτικών του λόγου και συνδέονται στενά με κοινωνικές πρακτικές. Αυτό είναι εμφανές και σε σώματα κειμένων ενός κειμενικού είδους, όπως το Corpus of Early English Correspondence (CEEC), που καλύπτει την περίοδο από το 1400 έως το 1800.
 

Χρησιμοποιώντας ως υλικό τα σώματα κειμένων HC και CEEC, στην αρχή μελετώ τα επίπεδα αφαίρεσης στα οποία μπορούν να χρησιμοποιηθούν τα διαχρονικά σώματα κειμένων για να μελετηθούν διαδικασίες γλωσσικής αλλαγής σε πραγματικό χρόνο. Για να αντιμετωπιστούν οι προκλήσεις που θέτει το «πρόβλημα των κακών δεδομένων» του ιστορικού γλωσσολόγου, στη συνέχεια συζητώ κάποιες από τις μεθόδους που ήδη υπάρχουν και που αναπτύσσονται για την ανάλυση κειμενικών ομοιοτήτων και διαφορών ανάμεσα σε σώματα κειμένων. Αναφέρομαι στην ανάγκη για επισημείωση και οπτικοποίηση των σωμάτων κειμένων και παρουσιάζω ένα εργαλείο που επιτρέπει τη διαδραστική οπτική διερεύνηση διάφορων πτυχών των δεδομένων.

Η ανακοίνωση πραγματοποιήθηκε στο πλαίσιο ημερίδας που διοργανώθηκε από το πρόγραμμα «Διαχρονικό Σώμα Ελληνικών Κειμένων του 20ού αιώνα» (Greek Corpus 20, http://greekcorpus20.phil.uoa.gr/), το οποίο συγχρηματοδοτείται από το Ευρωπαϊκό Κοινωνικό Ταμείο και την Ελλάδα (Ερευνητικό πρόγραμμα «Αριστεία»). Στόχος της ημερίδας ήταν η συζήτηση και ο προβληματισμός για τις βασικές αρχές και τις ορθές πρακτικές που αφορούν στη συγκρότηση διαχρονικών σωμάτων κειμένων με σκοπό τη γλωσσολογική έρευνα. Η εμπειρία μελετητών που έχουν εργαστεί σε σχετικά ερευνητικά προγράμματα σε άλλες γλώσσες αναμένεται να συμβάλει σημαντικά στη διαμόρφωση των στόχων και των πρακτικών του διαχρονικού σώματος κειμένων της Ελληνικής, καθώς, σε αντίθεση με άλλες γλώσσες, η Ελληνική δεν έχει επωφεληθεί έως τώρα από την ανάπτυξη της υπολογιστικής γλωσσολογίας σωμάτων κειμένων στο βαθμό που θα αναμενόταν: η έλλειψη ενός διαχρονικού σώματος κειμένων της Ελληνικής αποτελεί ένα μείζον κενό στην ελληνική γλωσσολογία και το ερευνητικό πρόγραμμα στοχεύει να καλύψει αυτό το κενό, αναπτύσσοντας ένα σώμα κειμένων 20 εκατ. λέξεων για τις πρώτες εννέα δεκαετίες του 20ου αιώνα, το οποίο θα ενσωματωθεί στο προϋπάρχον σώμα κειμένων 30εκατ. λέξεων του ΣΕΚ. Στόχος του σώματος κειμένων είναι η μελέτη περιοχών πρόσφατης γλωσσικής αλλαγής (τόσο σε γραμματικό όσο και σε λεξιλογικό επίπεδο) μέσω της ανάλυσης αυθεντικών κειμένων.

Nevalainen Terttu Καθηγήτρια Αγγλικής Φιλολογίας, Πανεπιστήμιο του Ελσίνκι

Η Terttu Nevalainen είναι Καθηγήτρια Αγγλικής Φιλολογίας στο Πανεπιστήμιο του Ελσίνκι, από το οποίο έλαβε τη διδακτορική της διατριβή το 1991. Είναι Διευθύντρια της Ερευνητικής Μονάδας για την Ποικιλότητα, τις Επαφές και την Αλλαγή στην Αγγλική (VARIENG), που αποτελεί Κέντρο Αριστείας. Τα πολλαπλά πεδία έρευνάς της περιλαμβάνουν την αγγλική γλώσσα και την ιστορία της, την ιστορική κοινωνιογλωσσολογία, τις σπουδές ποικιλότητας, τη δημιουργία και τη μεθοδολογία σωμάτων κειμένων. Είναι επιστημονική υπεύθυνη μιας σειράς σωμάτων κειμένων που αποτελούν το Corpus of Early English Correspondence (πάνω από 5 εκατομμύρια λέξεις) και συμμετέχει στο ερευνητικό πρόγραμμα Data mining tools for changing modalities of communication (DAMMOC) της Ακαδημίας της Φινλανδίας, το οποίο δημιουργεί εργαλεία και τεχνικές για τη μελέτη της γλωσσικής ποικιλότητας και της αλλαγής που λειτουργούν σε σχολιασμένα σώματα κειμένων, τόσο ιστορικά όσο και  σύγχρονα. Στα βιβλία της περιλαμβάνονται: Historical Socio¬linguistics: Language Change in Tudor and Stuart England (2003, με την H. Raumolin-Brunberg), An Introduction to Early Modern English (2006), Letter Writing (2007, επιμ. με την S.-K. Tanskanen), How to Deal with Data: Problems and Approaches to the Investigation of the English Language over Time and Space (2011, επιμ. με την S. Fitzmaurice) και ο πρόσφατος τόμος The Oxford Handbook of the History of English (2012, επιμ. με την E. Traugott).

Baker, Paul (2010). Sociolinguistics and Corpus Linguistics. Edinburgh: EUP.
 
Baker, Paul (2011). Times may change, but we will always have money: Diachronic variation in recent British English. Journal of English Linguistics 39: 65-88.
 
Biber, Douglas (2001). Dimensions of variation among 18th-century registers. Towards a History of English as a History of Registers, ed. by Hans Jürgen Diller and Manfred Görlach, 89-109. Heidelberg: C. Winter.
 
CEEC = The Corpus of Early English Correspondence (1998), comp. by Terttu Nevalainen, Helena Raumolin-Brunberg, Jukka Keränen, Minna Nevala, Arja Nurmi & Minna Palander-Collin. Helsinki: University of Helsinki. http://www.helsinki.fi/varieng/CoRD/corpora/CEEC/index.html
 
HC = The Helsinki Corpus of English Texts (1991). Compiled by Matti Rissanen (Project leader), Merja Kytö (Project secretary); Leena Kahlas-Tarkka, Matti Kilpiö (Old English); Saara Nevanlinna, Irma Taavitsainen (Middle English); Terttu Nevalainen, Helena Raumolin-Brunberg (Early Modern English) http://www.helsinki.fi/varieng/CoRD/corpora/HelsinkiCorpus/index.html
 
Hough, Carole (2012). Evidence from sources prior to 1500. The Oxford Handbook of the History of English, ed. by Terttu Nevalainen and Elizabeth Closs Traugott, 37-49. New York: OUP.
 
Hundt, Marianne & Christian Mair (1999). ‘Agile’ and ‘uptight’ genres. The corpus-based approach to language change in progress. International Journal of Corpus Linguistics 4(2): 221–242.
 
Leech, Geoffrey & Nicholas Smith (2005). Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29: 83-98.
 
Leech, Geoffrey, Marianne Hundt, Christian Mair & Nicholas Smith (2009). Change in contemporary English: a grammatical study. Cambridge: CUP.
 
Nevalainen, Terttu, Helena Raumolin-Brunberg & Heikki Mannila. 2011. The diffusion of language change in real time: Progressive and conservative indi-viduals and the time-depth of change. Language Variation and Change 23, 1-43.
 
Säily, Tanja, Terttu Nevalainen & Harri Siirtola (2011). Variation in noun and pronoun frequencies in a sociohistorical corpus of English. Literary and Linguistic Computing 26(2): 167–188.
 
Siirtola, Harri, Terttu Nevalainen, Tanja Säily & Kari-Jouko Räihä (2011).Visualisation of text corpora: A case study of the PCEEC. How to Deal with Data (Studies in Variation, Contacts and Change in English 7), ed. by Terttu Nevalainen & Susan Fitzmaurice. Helsinki: VARIENG.

Σχετικές ομιλίες