Stochastische Grammatikmodelle

Stochastische Grammatikmodelle

VORLESUNG (2V) im SOMMERSEMESTER 2017

Vorlesung Do 08-10 im SR 114 AB4 (August-Bebel-Straße 4)

Prof. Dr. E.G. Schukat-Talamazzini

Grammatische Modelle natürlicher Sprachen sind unverzichtbare Bestandteile maschineller Systeme

Die Modellierungsbemühungen waren über Jahrzehnte hinweg vom Einsatz spezieller natürlichsprachlicher Adaptionen der klassischen Phrasenstrukturgrammatiken geprägt. Die bekannten Formalismen (zum Beispiel LFG, DCG, HPSG, UCG) sind in der Chomsky-Hierarchie zumeist am unteren Rand angesiedelt. Trotz ihrer unbestreitbaren sprachwissenschaftlichen Relevanz weisen diese Modelle im Kontext der Praxis maschineller Sprachverarbeitung unübersehbare Mängel auf. Die manuelle Akquisition von Ersetzungsregeln, Kategorien oder Lexikonstrukturen verursacht erheblichen Entwicklungsaufwand, ist wenig modular, kaum wiederverwertbar und damit inflexibel gegenüber einem Domänenwechsel. Angesichts dieser Nachteile traditioneller Formalismen dominieren heute die statistischen Verfahren zur Sprachmodellierung. Sowohl die Wahrscheinlichkeitsparameter als auch die strukturellen Merkmale eines solchen Modells werden im Rahmen einer automatisierten Wissenserwerbsphase mit Hilfe einer Lernstichprobe textueller Daten gewonnen.

Methoden des automatischen Lernens stochastischer Grammatiken aus Datensammlungen werden längst aber auch im Bereich künstlicher Sprachen eingesetzt -- die bekannteste Anwendung ist die Modellierung der Primärstruktur genomischer Sequenzen als Sprache über dem Nuklein- oder Aminosäurealphabet.

Die Lehrveranstaltung gliedert sich in drei Teile.

  1. Im ersten Teil werden -- nach einer kurzen Zusammenstellung wissenswerter Details über formale Sprachen, Grammatiken, Automaten -- einige traditionelle Systeme schwach kontextfreier Sprachen (Index-, Baumadjunktions-, Kopf-, Kategorial- und linksassoziative Grammatiken) vorgestellt.
  2. Statistische Lernverfahren für die Grammatiken natürlicher Sprachen bilden dann den zweiten Teil der angekündigten Vorlesung. Als Vorbereitung dient eine sehr umfassende Darstellung von Schätzverfahren für diskrete Wahrscheinlichkeitsverteilungen, an die sich die Behandlung von N-Gramm-Sprachmodellen sowie von Methoden zur automatischen Wortkategorisierung und zur Modellierung weitgespannter Wortabhängigkeiten (insbesondere kontextfreie stochastische Grammatiken) anschließt.
  3. Im anwendungsorientierten dritten Teil schließlich werden korpuslinguistische Methoden, Systeme des Information Retrieval und Verfahren der Maschinellen Übersetzung behandelt.

Die Lehrveranstaltung richtet sich an Studierende der Masterstudiengänge Informatik, Bioinformatik und Computational Science.





E.G. Schukat-Talamazzini Institut für Informatik Fakultät Mathe/Inf FSU Jena 06.03.2017 - 13:54 E-Mail