Nathan Dykes, M. A.
Nathan Dykes, M. A.
Forschungsschwerpunkte:
- Korpuslinguistik
- Computerlinguistik
- Diskursanalyse
- Argument Mining
- Legal Tech
Seit 10/2024
Wissenschaftlicher Mitarbeiter
FAU Erlangen-Nürnberg, Department of Digital Humanities and Social Studies (DHSS)
Seit 05/2018
Wissenschaftlicher Mitarbeiter und Doktorand
FAU Erlangen-Nürnberg, Lehrstuhl für Korpus- und Computerlinguistik (CCL)
02/2022 bis 09/2023
Wissenschaftlicher Mitarbeiter
FAU Erlangen-Nürnberg, Lehrstuhl für Anglistik, insbesondere Linguistik
2016-2020
Lehrbeauftragter für Schwedisch
FAU Erlangen-Nürnberg, Sprachenzentrum
Beiträge in Fachzeitschriften
- Adrian, A., Dykes, N., Evert, S., Heinrich, P., & Keuchen, M. (2023). AUTOMATISCHE ANONYMISIERUNG VON GERICHTSURTEILEN – EINE VISION SCHEINT REALISIERBAR. Jusletter IT, March, 211-220. https://doi.org/10.38023/14A32D75-E299-40D4-9523-3AF8BD445F95
- Adrian, A., Dykes, N., Evert, S., Heinrich, P., & Keuchen, M. (2022). Entwicklung und Evaluation automatischer Verfahren zur Anonymisierung von Gerichtsentscheidungen. LegalTech, 4, 233-238.
- Peters, J., Dykes, N., Heckel, M., Ostgathe, C., & Habermann, M. (2022). Präsentation von Palliativstationen und SAPV-Teams im Internet - eine korpusbasierte Metaanalyse von Webseiten. Zeitschrift für Palliativmedizin, 23, 46-53. https://doi.org/10.1055/a-1689-7524
- Dykes, N., Evert, S., Göttlinger, M., Heinrich, P., & Schröder, L. (2021). Argument parsing via corpus queries. it - Information Technology, 63, 31-44. https://doi.org/10.1515/itit-2020-0051
- Dykes, N., Evert, S., Göttlinger, M., Heinrich, P., & Schröder, L. (2020). Reconstructing Arguments from Noisy Text. Datenbank-Spektrum, 20, 123-129. https://doi.org/10.1007/s13222-020-00342-y
- Peters, J., Dykes, N., Ostgathe, C., Habermann, M., & Heckel, M. (2020). Kompetenzdarstellung, Patientennähe und Argumentationsstrategien von Internetangeboten deutscher Hospize, Palliativstationen und SAPV-Teams-eine korpusbasierte Meta-Analyse. Zeitschrift für Palliativmedizin, 21(5), e34.
- Dykes, N., & Peters, J. (2020). Reconstructing argumentation patterns in German newspaper articles on multidrug-resistant pathogens: a multi-measure keyword approach. Journal of Corpora and Discourse Studies, 3, 51-74. https://doi.org/10.18573/jcads.35
- Peters, J., Dykes, N., Heckel, M., Ostgathe, C., & Habermann, M. (2019). A Linguistic Model of Communication Types in Palliative Medicine: Effects of Multidrug-Resistant Organisms (MDRO) Colonization or Infection and Isolation Measures in End of Life on Family Caregivers’ Knowledge, Attitude and Practices. Journal of Palliative Medicine, 22(8). https://doi.org/10.1089/jpm.2019.0027
- Peters, J., Dykes, N., Habermann, M., Ostgathe, C., & Heckel, M. (2019). Metaphors for multidrug-resistant bacteria in German newspaper articles, 1995-2015. A computer-assisted qualitative study. Metaphor and the Social World, 9(2), 221-241.
Beiträge in Sammelwerken
- Adrian, A., Dykes, N., Evert, S., Heinrich, P., & Keuchen, M. (2023). Automatische Anonymisierung von Gerichtsurteilen – Eine Vision scheint realisierbar. In Erich Schweighofer / Jakob Zanol / Stefan Eder (Hrg.), Rechtsinformatik als Methodenwissenschaft des Rechts – Tagungsband des 26. Internationalen Rechtsinformatik Symposions IRIS 2023. (S. 211 - 220). Editions Weblaw.
- Peters, J., & Dykes, N. (2022). Die Palliativmedizinische Fachkultur in Geschichte und Gegenwart – sprachwissenschaftliche Perspektiven. In Ilg, Yvonne, Schnedermann, Theresa, Iakushevich, Marina (Eds.), Linguistik und Medizin. (pp. 194-214). Berlin, New York: De Gruyter.
- Adrian, A., Dykes, N., Evert, S., Heinrich, P., Keuchen, M., & Proisl, T. (2022). Manuelle und automatische Anonymisierung von Urteilen. In Adrian, Axel/Kohlhase, Michael/Evert, Stephanie/Zwickel, Martin (Hrg.), Digitalisierung von Zivilprozess und Rechtsdurchsetzung. (S. 173-197).
- Dykes, N., Heinrich, P., & Evert, S. (2022). Retrieving Twitter argumentation with corpus queries and discourse analysis. In Susanne Flach, Martin Hilpert (Eds.), Broadening the Spectrum of Corpus Linguistics: New approaches to variability and change. (pp. 229-256). John Benjamins Publishing Company.
- Keuchen, M., Adrian, A., Evert, S., Heinrich, P., & Dykes, N. (2021). Anonymisierung von Gerichtsurteilen – Eine wesentliche Voraussetzung für E-Justice –. In Schweighofer E, Eder S, Hanke P, Kummer F, Saarenpää A (Hrg.), Cybergovernance - Tagungsband des 24. Internationalen Rechtsinformatik Symposions IRIS 2021. (S. 137 - 149). Editions Weblaw.
Beiträge bei Tagungen
- Heinrich, P., Blombach, A., Doan Dang, B., Zilio, L., Havenstein, L., Dykes, N.,... Schäfer, F. (2024). Automatic Identification of COVID-19-Related Conspiracy Narratives in German Telegram Channels and Chats. In Nicoletta Calzolari, Min-Yen Kan, Veronique Hoste, Alessandro Lenci, Sakriani Sakti, Nianwen Xue (Eds.), Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (pp. 1932-1943). Turin, IT.
- Dykes, N., Evert, S., Heinrich, P., Humml, M., & Schröder, L. (2024). Leveraging High-Precision Corpus Queries for Text Classification via Large Language Models. In Hautli-Janisz A, Lapesa G, Anastasiou L, Gold V, Liddo AD, Reed C (Eds.), Proceedings of the First Workshop on Language-driven Deliberation Technology (DELITE) @ LREC-COLING 2024 (pp. 52--57). Torino, Italy: Torino, Italy: ELRA and ICCL.
- Heinrich, P., Blombach, A., Doan Dang, B., Zilio, L., Havenstein, L., Dykes, N.,... Schäfer, F. (2024). Automatic Identification of COVID-19-related Narratives in German Telegram Channels and Chats. In Nicoletta Calzolari, Min-Yen Kan, Veronique Hoste, Alessandro Lenci, Sakriani Sakti, Nianwen Xue (Eds.), LREC-COLING 2024 - Main Conference Proceedings (pp. 1932-1943). Torino, IT: European Language Resources Association (ELRA).
- Dykes, N., Evert, S., Heinrich, P., Humml, M., & Schröder, L. (2024). Finding Argument Fragments on Social Media with Corpus Queries and LLMs. In Philipp Cimiano, Anette Frank, Michael Kohlhase, Benno Stein (Eds.), Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) (pp. 163-181). Bielefeld, DEU: Springer Science and Business Media Deutschland GmbH.
- Dykes, N., Wilson, A., & Uhrig, P. (2023). A Pipeline for the Creation of Multimodal Corpora from YouTube Videos. In Piush Aggarwal, Özge Alaçam, Carina Silberer, Sina Zarrieß, Torsten Zesch (Eds.), Proceedings of the 1st Workshop on Linguistic Insights from and for Multimodal Language Processing (LIMO 2023) (pp. 1-5). Ingolstadt, DE: Ingolstadt: Association for Computational Linguistics.
- Uhrig, P., Payne, E., Pavlova, I., Burenko, I., Dykes, N., Baltazani, M.,... Wilson, A. (2023). Studying Time Conceptualisation via Speech, Prosody, and Hand Gesture: Interweaving Manual and Computational Methods of Analysis. In Wim Pouw, James Trujillo, Hans Rutger Bosker, Linda Drijvers, Marieke Hoetjes, Judith Holler, Sarka Kadava, Lieke Van Maastricht, Ezgi Mamus, Asli Ozyurek (Eds.), Gesture and Speech in Interaction. Nijmegen, NL.
- Blombach, A., Dykes, N., Heinrich, P., Kabashi, B., & Proisl, T. (2020). A Corpus of German Reddit Exchanges (GeRedE). In Nicoletta Calzolari, Frederic Bechet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis (Eds.), LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings (pp. 6310-6316). Marseille, FR: European Language Resources Association (ELRA).
- Dykes, N., Heinrich, P., & Blombach, A. (2020, February). Independent argumentation schemes? Transferring argument queries from Brexit to environment tweets. Paper presentation at ICAME41, Heidelberg, DE.
- Blombach, A., Dykes, N., Evert, S., Heinrich, P., Kabashi, B., & Proisl, T. (2020). A new German Reddit corpus. In Proceedings of the 15th Conference on Natural Language Processing, KONVENS 2019 (pp. 278-279). Erlangen-Nurnberg, DE: German Society for Computational Linguistics and Language Technology.
- Proisl, T., Dykes, N., Heinrich, P., Kabashi, B., Blombach, A., & Evert, S. (2020). EmpiriST Corpus 2.0: Adding Manual Normalization, Lemmatization and Semantic Tagging to a German Web and CMC Corpus. In Nicoletta Calzolari, Frederic Bechet, Philippe Blache, Khalid Choukri, Christopher Cieri, Thierry Declerck, Sara Goggi, Hitoshi Isahara, Bente Maegaard, Joseph Mariani, Helene Mazo, Asuncion Moreno, Jan Odijk, Stelios Piperidis (Eds.), LREC 2020 - 12th International Conference on Language Resources and Evaluation, Conference Proceedings (pp. 6142-6148). Marseille, FR: European Language Resources Association (ELRA).
- Dykes, N., Heinrich, P., & Evert, S. (2019, June). Arguing Brexit on Twitter. A corpus linguistic study. Paper presentation at European Conference on Argumentation 2019, Groningen, NL.
- Dykes, N., Heinrich, P., & Evert, S. (2019, June). Reconstructing Twitter arguments with corpus linguistics. Paper presentation at ICAME40: Language in Time, Time in Language, Neuchâtel, CH.
- Proisl, T., Uhrig, P., Heinrich, P., Blombach, A., Mammarella, S., Dykes, N., & Kabashi, B. (2019). The_Illiterati: Part-of-Speech Tagging for Magahi and Bhojpuri Without Even Knowing the Alphabet. In Proceedings of the First International Workshop on NLP Solutions for Under Resourced Languages (NSURL 2019) (pp. 73-79). Trento, IT: Association for Computational Linguistics.
- Evert, S., Dykes, N., & Peters, J. (2018). A quantitative evaluation of keyword measures for corpus-based discourse analysis.
- Peters, J., & Dykes, N. (2018). From keywords to discourse - towards a keyword operationalisation model in discourse linguistics. In Corpora and Discourse International Conference. Lancaster.
-
Argumentrekonstruktion aus Politischen Debatten
(Drittmittelfinanzierte Einzelförderung)
Laufzeit: 1. Januar 2021 - 31. Dezember 2023
Mittelgeber: DFG / Schwerpunktprogramm (SPP)
URL: https://www.linguistik.phil.fau.de/projects/rant/Politische Debatten liegen heutzutage zu großen Teilen in maschinenlesbarer Form vor – in der formellen Öffentlichkeit von Parlamentsdebatten ebenso wie in der Halböffentlichkeit sozialer Medien. Dies eröffnet die Möglichkeit, sich mit automatischen Textanalysemethoden einen breiten Überblick über die vorgebrachten Argumente zu verschaffen. Das Projekt RANT/RAND entwickelt im Rahmen des SPP RATIO (Robust Argumentation Machines) zu diesem Zweck einen kombinierten Ansatz, in den Methoden aus Logik und Korpuslinguistik einfließen. Da aufgrund der riesigen Menge verfügbarer Daten davon ausgegangen werden kann, dass alle wichtigen Argumente auch bei relativ niedriger Sensitivität gefunden werden, setzen unsere Verfahren auf hohe Genauigkeit (auf Kosten der Sensitivität). Dazu erstellen wir eine Liste von Logikmustern, die gängigen Argumentationsschemata entsprechen (z.B. Argumentum ad verecundiam) und im Wesentlichen als mit Platzhaltern versehene Formeln in speziellen Modallogiken betrachtet werden können. Jedes Logikmuster ist mit mehreren sprachlichen Realisierungen verknüpft, die in korpuslinguistischen Studien erarbeitet und gleichzeitig in Form von Suchanfragen operationalisiert werden. Unser Ansatz verbindet somit die Entwicklung automatischer Methoden zur Argumentextraktion mit neuen Erkenntnissen über linguistische Aspekte insbesondere der umgangssprachlichen politischen Argumentation. Die aktuell laufende erste Phase des Projekts konzentriert sich auf die Entwicklung und Evaluation von Logikmustern und korpuslinguistischen Suchanfragen für einzelne Argumente anhand einer Fallstudie auf einem großen englischsprachigen Twitter-Korpus. In der zweiten Projektphase werden wir die Robustheit unseres Ansatzes testen, indem wir weitere extsorten mit einbeziehen und insbesondere auch längere kohärente Texte wie Zeitungsartikel und Parlamentsdebatten analysieren. Zudem arbeiten wir in der zweiten Phase mit deutschsprachigen Texten, die mit korpuslinguistischen Suchanfragen wesentlich schwieriger zu erfassen sind (u.a. aufgrund diskontinuierlicher Konstituenten und eines deutlich kleineren Angebots qualitativ hochwertiger NLP-Werkzeuge). Ein weiterer entscheidender Schritt ist der Einsatz ähnlichkeitsbasierter Methoden, um aus den extrahierten Argumenten komplexe Schlussfolgerungen ziehen zu können. Dazu werden Platzhalter in den extrahierten Formeln mit speziell auf unsere Anforderungen zugeschnittenen Embedding-Vektoren ausgefüllt. Ferner werden wir unseren Ansatz auf die Extraktion von Argumentationsstrukturen, d.h. explizite und implizite Verweise zwischen Argumenten, ausdehnen. Ergänzend dazu werden wir die logische Struktur von Argumentation über Planung untersuchen und Querverbindungen zwischen Argumentation und zwischenmenschlichen Beziehungen herstellen (z.B. in Ad-hominem-Argumenten). -
Rekonstruktion von Argumenten aus Noisy Text (SPP 1999: RATIO)
(Drittmittelfinanzierte Einzelförderung)
Laufzeit: 1. Januar 2018 - 31. Dezember 2020
Mittelgeber: Deutsche Forschungsgemeinschaft (DFG)Soziale Medien spielen in der gesellschaftlichen Meinungsbildung eine wachsende Rolle. Gegenstand von RANT ist die Entwicklung von Methoden und Formalismen zur Extraktion, Repräsentation und Verarbeitung von Argumenten aus Texten geringer linguistischer Qualität, wie sie eben in Diskussionen auf sozialen Medien anzutreffen sind, anhand einer laufenden Fallstudie an einem großen Korpus von vor dem Referendum verbreiteten Twitter-Botschaften zum Thema Brexit. Wir werden eine korpuslinguistische Studie zur Identifikation wiederkehrender sprachlicher Argumentationsschemata durchführen und anhand dieser Schemata im Sinne eines High-Precision-Low-Recall-Ansatzes entsprechende Korpusanfragen zur Extraktion von Argumenten entwerfen. In der Tat erwarten wir, dass sich Argumentationsschemata unmittelbar mit logischen Schemata in einem dedizierten Formalismus in Verbindung bringen lassen und somit einzelne Argumente direkt als logische Formeln geparst werden können. Der zur Argumentrepräsentation verwendete Formalismus wird ein breites Spektrum an Modalitäten beinhalten, die in realen Texten auftretende sprachlich-semantische Phänomene wie Unsicherheit, Wirkung, Präferenz, Sentiment, Vagheit und Default-Implikation widerspiegeln. Wir werden einen solchen Formalismus als Familie von Instanzlogiken in der koalgebraischen Logik darstellen, die als generisches logisches Rahmenwerk vereinheitlichte semantische, deduktive und algorithmische Methoden für Modalitäten jenseits der üblichen relationalen Semantik zur Verfügung stellt; insbesondere werden wir Deduktionswerkzeuge für Argumentationslogiken auf bestehende generische koalgebraische Werkzeuge aufbauen. Die so entstehende logische Sprache zur Repräsentation einzelner Argumente wird ergänzt durch ein flexibles Rahmenwerk zur Repräsentation von Beziehungen zwischen Argumenten. Hierzu gehören sowohl in der Argumentationstheorie verbreitet betrachtete Relationen wie die Angriffs- und Unterstützungsrelationen sowie aus den Metadaten des Korpus gewonnene Beziehungen wie Zitation, Hashtags oder direkte Ansprache (per Erwähnung von Benutzernamen) als auch solche Beziehungen, die sich erst durch logische Schlussfolgerung aus dem Inhalt der Argumente ergeben. Insbesondere letztere Beziehungen stellen sich semantisch oft nicht als Relationen im engeren Sinne dar, sondern involvieren z.B. kontinuierliche Wahrheitswerte, Präferenzordnungen oder Wahrscheinlichkeiten und profitieren insofern von einer einheitlichen koalgebraischen Modellierung, die auch die semantische Grundlage der koalgebraischen bildet. Wir werden dementsprechend geeignete Verallgemeinerungen der für Dung's Argumentation Frameworks definierten Extensionssemantiken entwickeln und somit letztlich Begriffe wie „kohärenter Standpunkt“ oder „verbreitete Sichtweise“ formal einfangen; in Verbindung mit entsprechenden algorithmischen Methoden wird dies die automatisierte Extraktion umfassender argumentativer Positionen aus dem Korpus erlauben.
Organisation von Tagungen / Konferenzen
- Text Mining and Generation (TMG)
19. September 2022 - 19. September 2022, URL: https://recap.uni-trier.de/2022-tmg-workshop/