Berechnen von Semantischen Repräsentationen mit Referentensystemen

English German Hungarian

Version 5.1 Datum: Dienstag, 10. April 2007

Dieses Projekt umfasst zwei Teile.

Das Manuskript deckt nur die Versionen bis 4 ab, die Änderungen in Version 5.0 sind noch nicht reflektiert. Die neue Fassung benutzt bereits Version 5.1. Klicken Sie für eine online Demonstration.
  1. Quellkode
  2. Installation
  3. Tk-Interface
  4. Standalone Version
  5. Änderungen
  6. Zu Tun
  7. Internationalisierung
  8. Andere Plattformen
  9. Danksagung

Quellkode

Ab Version 5.0 wird der Quellkode erstmals öffentlich. Sie können ihn gemäss der GNU Lizenz verwenden. Ich übernehme allerdings auch kein Haftung jeglicher Art, die aus der Verwendung dieser Software resultiert. Untenstehende Erklärungen betreffen bisher lediglich Unix basierte Systeme (das schliesst Mac OS X ein), für eine Anpassung an Windows fehlte mir bisher die Zeit und Expertise.
Back to Top

Installation

Falls Sie eine eigene lauffähige Version auf Ihrem Computer installieren wollen, brauchen Sie folgende Software:

Um das Programm zu installieren, laden Sie die Datei referent_v5-1.tar herunter. Sie enthält die folgenden Dateien: Die Installation verläuft wie folgt. Wählen Sie ein Verzeichnis, <RefSys> und entpacken Sie dort die Datei referent_v5-1.tar mit folgendem Befehl:

tar xvf referent_v5-0.tar

Sie bekommen Unterverzeichnisse dict und bin. dict ist der Platz für die Wörterbücher, bin der Platz für die ausführbaren Dateien. Tippen Sie nun

chmod +x bin/*

Dies macht die Dateien in bin ausführbar. Wenn Sie zum ersten Mal compile aufrufen, wird ein Verzeichnis parse von <RefSys> erzeugt. In diesem Verzeichnis werden Sie alle Ausgaben von Parses etc. wiederfinden. Das interaktive Installationsprogramm erlaubt eine Installation in Deutsch und Englisch. Die Installationssprache wird an das System weitergegeben und bestimmt die Sprache, in der Ausgabefiles geschaffen werden. Dieser Schritt sollte nicht übersprungen werden. Es folgt eine Abfrage, ob Sie die Software kompilieren wollen. Beim ersten Mal sollten Sie das unbedingt tun, danach nur, wenn Sie Änderungen vorgenommen haben. Danach werden Sie nach den Wörterbüchern gefragt. Am Ende können Sie zwischen folgendem wählen: Fehler bei der Kompilation werden in der Datei compile.log abgelegt. Ween dieser leer ist, ist das System erfolgreich installiert.
Back to Top

Tk-Interface

Das graphische Interface ist weniger flexibel als die Standalone Version. Allerdings erlaubt sie die Eingabe von beliebigen Zeichen, während das Standalone Programm nur mit Tastatur arbeitet. Um das Interface aufzurufen, müssen Sie lediglich rs eintippen. Wenn Sie "parse" antippen, wird eine Datei namens

parse/date<date>at<time>.tex

erzeugt, sodass ältere Dateien nicht zerstört werden. (Sie sollten deswegen von Zeit zu Zeit das Verzeichnis parse aufräumen.)
Back to Top

Standalone Version

Die Standalone Version ist viel flexibler als das graphische Interface. Falls Sie das System vollständig kompiliert haben, tippen Sie einfach referent (oder, falls Sie keine Pfade gesetzt haben bin/referent), und dann #use "dict/deu.ml";; (oder whas immer der Name eines der Wörterbücher ist, das Sie ansehen mïchten). Das System ist fertig. Tippen Sie help ();; für ausführliche Hilfe. Um zu parsen, tippen Sie nach dem Prompt parse_show "Satz";; (wo Satz ein von Ihnen gewählter Satz ist). Wenn alles gut geht, kommt ziemlich bald der XDvi-Viewer mit einem Ergebnis. Dazu müssen Sie natürlich LaTeX installiert haben.
Back to Top

Changelog

Version 3
Seit Version 3 ist das Programm modular aufgebaut und deswegen auch für andere transparenter. Auch der Algorithmus ist anders: das Programm berechnet erst Parseterme ohne Semantik und rechnet nur die erfolgreichen Terme aus. Eine weitere Neuerung sind das Polyadische Merge (welches unter anderem zur Behandlung von Infinitiven nötig ist.)
Version 4
Neben der Breichtigung von einigen Codefehlern erzeugt die neue Fassung jetzt auch eine interaktive Webseite, bei der Benutzer Wörterbücher laden können.
Back to Top
Version 5.0

Die grössten Änderungen betreffen die Morphologie. Einträge bestehen jetzt unter anderem aus Morphemen, welche ihrerseits Mengen von Morphen sind. Jedes Morph besitzt ausser einem Exponenten (ein Array von Strings) auch Angaben zur Behandlung von Exponenten. Der Vorzug liegt ausser im linguistischen Bereich auch in der besseren Integration von Morphologie und damit der Vermeidung von exponentiellem Blowup durch die bisher verwendeten morphologischen Tabellen.

Das Tcl-Skript ist vereinfacht worden.

Version 5.1

Es ist jetzt möglich, nicht ASCII-Zeichen mit einer Standardtastatur bei der Standalone-Fassung einzugeben. Dazu wird lediglich eine Kombinationstabelle aufgebaut, die frei wählbare Kürzel enthält.

Exponenten sind Arrays von sogenannten klebenden Strings. Das sind Zeichenketten, die zusätzlich Bedingungen haben on der Form "darf nur an ein Zeichenkette angehängt werden, die (k)ein Suffix der Form suf hat" bzw. "darf nur an Zeichenkette vorangestellt werden, falls diese (k)ein Prefix der Form pref hat".

Variable sind Paare (Zeichenkette, integer) und Zeichenketten werden mit Hilfe von Buffern ausgegeben, um schneller zu arbeiten.

Zu Tun


Back to Top

Internationalisierung

Die Software ist in zwei Hinsichten flexibel. Zum einen ermöglicht sie die Installierung in beliebigen Sprachen (die Sprachkomponente ist strikt getrennt). Zum anderen erlaubt sie die Behandlung von Zeichen ausserhalb von ISO-Latin-1. Augenblicklich benutzt OCaml intern nur ISO-Latin-1, aber die Wörterbücher dürfen sämtliche Unicode Zeichen verwenden. Zum einen benutze ich einer Erweiterung (Camomile), zum anderen unterstützt Tcl Unicode. LaTeX ist da ein bisschen wählerischer. (Der typewriter font ist etwas unvollständig.) Solange man UTF-8 verwendet und keine zu exotischen Sprachen, sollte allerdings alles ohne Probleme fonktionieren. Das Tk-Interface bietet die Möglichkeit, Symbole mittels eines frei wählbaren Kodes einzugeben. Näheres im Manuskript Revision 4.
Back to Top

Andere Plattformen

Die Software wurde erfolgreich auf zahlreichen Linuxoberflächen getestet, einschliesslich Mac OS X. Sowohl compile wie easy-compile laufen vorschriftsmässig. Für Windows ist bisher der einzige Weg, Cygwin zu installieren. Mir fehlt die Erfahrung mit Windows, um hier Rat zu geben.
Back to Top

Danksagung

Referentensysteme wurden von Kees Vermeulen eingeführt. Ich bin Kees sowie Albert Visser dankbar für die Einführung in die Theorie der Referentensysteme. Die Software wurde von mir selbst erstellt und finanziert durch zwei Senatsstipendien der UCLA. Bei der Implementierung waren insbesondere Cory Hill, Ben Keil Adam Skory und Joseph Vaughan behilflich.


Klagen und Lob richten Sie bitte an Marcus Kracht.
Back to Top