Umweltdatenkatalog Österreich - Wortgutredaktion


THESshow und THESmain

Moderne Softwarewerkzeuge zur Erstellung, Wartung und Visualisierung multilingualer Thesauri

Wolf-Dieter Batschi (Umweltbundesamt, Berlin), Rudolf Legat (Umweltbundesamt, Wien),
Hermann Stallbaumer (Technisches Büro für Elektrotechnik)

51. Jahrestagung der Deutschen Gesellschaft für Informationswissenschaft und Informationspraxis e.V. (DGI), Hamburg 21. Bis 23. September 1999, Seite 285ff, Frankfurt am Main: DGI, 1999

Get Acrobat Reader Dieses Dokument ist auch im pdf-Format (98 KB) für Adobe Acrobat Reader erhältlich.


Thesaurusarbeit ist seit Jahrzehnten geprägt von enormem Aufwand für die intellektuelle, fachinhaltliche Durchdringung und Erstellung der Thesaurusbeziehungen, die kontinuierliche Pflege und Aktualisierung des Wortgutes und die Anstrengungen zur Visualisierung der Beziehungen der Begriffe des Thesaurus. Bisher standen zur Unterstützung dieser Arbeiten eine Reihe von Softwarewerkzeugen zur Verfügung, die diesen Prozeß mehr oder weniger stark unterstützten. Sie waren in der Regel auf die Erstellung und Pflege einsprachiger Thesauri ausgerichtet oder in Dokumentationssysteme eingebunden, ohne die Möglichkeit, sie als "stand alone” - Lösung nutzen zu können.

Im Rahmen eines Projektes der Europäischen Umweltagentur (EUA) zu einem europäischen Umweltdatenkatalog wurde ein Europäisches Themenzentrum Datenquellenkatalog (European Topic Centre on Catalogue of Data Sources ETC / CDS) beim Niedersächsischen Umweltministerium eingerichtet. Es soll die Suche nach umweltrelevanten Daten in einem Europäischen Rahmen ermöglichen und entsprechende Metainformationen speichern. Die Suche nach Daten zu umweltbezogenen Themen gestaltet sich für Fachleute, insbesondere aber für die interessierte Öffentlichkeit nicht immer einfach, vor allem, wenn nicht bekannt ist, ob die gesuchten Daten überhaupt erhoben wurden, von wem sie erhoben wurden und wo man sie bekommen kann. Um diesem Informationsbedürfnis gerecht zu werden, wurden in den letzten zehn Jahren in vielen Staaten Umweltdatenkataloge aufgebaut. Diese Metainformationssysteme über umweltrelevante Datenbestände enthalten wichtige Hinweise über die Verwendbarkeit und den Zugriff auf die Daten, wie fachliche Beschreibung, fachlicher Kontext, Raum- und Zeitbezug sowie Angaben zur Zuständigkeit, Verfügbarkeit und Aktualität.

Wesentlichen Einfluß auf ein zufriedenstellendes Rechercheergebnis in Metainformationssystemen hat eine einheitliche inhaltliche Erschließung der Datenbestände, die bereits bei der Dateneingabe die unterschiedlichsten Sichtweisen potentieller Nutzer auf Datenbestände vorwegnehmen muß. Sie muß daher einerseits so detailliert sein, daß sie auch für Experten von Nutzen ist, aber gleichzeitig so allgemein, daß sie auch von Laien des betreffenden Fachgebietes verwendet werden kann. Diese Aufgabe kann nur ein Thesaurus erfüllen. Dessen Anbindung an ein Metainformationssystem soll einen flächendeckend homogenen Metadatenbestand gewährleisten, um einer Vielzahl von unterschiedlichen Anwendern als adäquates Instrument zur Datenverwaltung, - pflege und – recherche zu dienen. Die Entwicklung und die konsequente Anwendung eines Thesaurus zur Indexierung der Daten stellt daher bei der Realisierung eines Metainformationssystems ein wichtiges Element dar.

Da es sich bei der Entwicklung des CDS und des dazugehörigen Thesaurus um ein multinationales Projekt mit entsprechenden verschiedensprachigen Beteiligten handelte, war es selbstverständlich, den entstehenden Thesaurus als multilingualen Thesaurus zu konzipieren. Außerdem soll es der Thesaurus allen Nutzern in den Ländern Europas ermöglichen, in ihrer eigenen Sprache den Datenkatalog abzufragen und über die Thesaurusbegriffe bei fremdsprachigen Datenobjekten im Katalog zumindest einen ersten Hinweis zur Relevanz der gefundenen Informationen zu erhalten. Die inhaltliche Erschließung der Daten erfolgt nicht nur mit Hilfe des Thesaurus sondern darüber hinaus durch 30 (Sach)Gruppen und 40 Themengebiete. Im Rahmen des Projektes zur Erstellung des GEneral Multilingual Environmental Thesaurus (GEMET) waren eine Reihe umweltrelevanter Thesauri aus den beteiligten Nationen zu berücksichtigen und zu einem einheitlichen Thesaurus auf europäischer Ebene zu verschmelzen. Hierbei wurden Auszüge aus den umweltrelevanten Thesauri Deutschlands, Frankreichs, Italiens, der Niederlande und Spaniens einbezogen. Der Infoterra - Thesaurus EnVoc der Vereinten Nationen wurde komplett in GEMET übernommen.

Bei der Suche nach einem adäquaten Softwarewerkzeug mußte im Rahmen des Projektes festgestellt werden, daß auf dem Markt kein Produkt existierte, das einer derart anspruchsvollen Aufgabe voll gewachsen war. Außerdem mußte erkannt werden, daß die vorhandenen Tools nicht in dem Umfang erweiterbar waren, wie es für die genannten Zwecke notwendig war.

Auch im Rahmen der bestehenden Kooperationsvereinbarung vom 22. August 1993 über die Zusammenarbeit beim Aufbau, bei der Entwicklung und bei der Pflege eines gemeinsamen Umweltdatenkataloges zwischen der Bundesrepublik Deutschland und der Republik Österreich erwies es sich als notwendig, für den gemeinsamen Thesaurus (UDK - Thesaurus) ein geeignetes Softwarewerkzeug einzusetzen. Österreich hat dabei die Aufgabe übernommen, im Rahmen einer Koordinierungsstelle Thesaurusentwicklung, die Bereitstellung und Pflege des UDK - Thesaurus (der identisch ist mit dem Umweltthesaurus des Umweltbundesamtes in Berlin) sicherzustellen.

Da die Projekte GEMET und Weiterentwicklung des UDK - Thesaurus sehr ähnlich sind, hat es sich angeboten, eine gemeinsame Entwicklung eines modernen Softwarewerkzeugs für die Erstellung, Pflege und Visualisierung von Thesauri zu betreiben.

Auf der Basis der Vorgaben der Thesaurusfachleute aus den Umweltbundesämtern Berlin und Wien sowie der italienischen Experten vom Consiglio Nazionale delle Ricerche (CNR), Rom erfolgte die Entwicklung der Programme durch die Firma Technisches Büro für Elektrotechnik (TBHS), Wien. Das Softwarepaket besteht, neben einer Reihe von Utilities, aus den Programmen THESmain für die Erstellung und Wartung und THESshow für die Visualisierung. Die Erstellung eines Thesaurus wird üblicherweise von einem kleinen Team zentral durchgeführt. Der fertige Thesaurus wird von einer großen Anzahl von Benutzern verwendet. Dies führt zu unterschiedlichen Anforderungen an die Software für die Erstellung und für die Benutzung eines Thesaurus, wobei noch festzuhalten ist, daß die meisten kommerziell erhältlichen Thesaurusverwaltungsprogramme den Nutzern den Thesaurus ohnedies nur auf Papier zur Verfügung stellen. Deshalb kam es zu der Entwicklung eines Softwarepaketes für beide Nutzungsarten, wobei die wesentlichsten Elemente und Funktionalitäten in beiden Programmen identisch sind.

Diese Elemente und Funktionen sind nachfolgend dargestellt:

Erstellungs- und Wartungsprogramm THESmain

Visualisierungsprogramm THESshow

THESmain: eine Anwendung zur Thesaurusverwaltung
Wesentliche Funktionen

Kontrolleiste
Die einzelnen Unterprogramme von THESshow können mittels einer Kontrolleiste, ähnlich der von Microsoft Office, aufgerufen werden. Durch Anwahl von Schaltflächen dieser Kontrolleiste werden die entsprechenden Funktionen entweder gestartet oder das dazugehörige Fenster wird in den Vordergrund gestellt. Dadurch können mehrere offene Fenster auch auf kleinen Bildschirmen leicht verwaltet werden. Aufgerufen werden die Tabellen für Deskriptoren und Nondeskriptoren, das Navigationsfenster, welches die Relationen zeigt, das Fenster für die grafische Darstellung und das Fenster für die Werkzeuge.
Kontrolleiste

Datenvisualisierung
Die Daten eines Thesaurus werden in THESmain auf drei Arten gezeigt:

Tabellarische Darstellung von Deskriptoren und Nondeskriptoren
Wesentliche Funktionen

Das nachfolgende Bild zeigt Deskriptoren in drei Sprachen mit englischer Sortierung.
Deskriptoren in drei Sprachen mit englischer Sortierung

In diesem Fenster können mittels des Termmanagers Deskriptoren und Nondeskriptoren angelegt, geändert und gelöscht werden. Änderungen können nicht nur auf den gerade gewählten Term angewendet werden. Es ist auch möglich Änderungen auf die gerade gewählte Selektion von Termen anzuwenden.

Beim Erstellen oder Ändern eines Begriffs werden Prüfungen bezüglich der Konsistenz durchgeführt:

Folgende Felder stehen pro Term zur Verfügung:
- Der Term selbst
- Sort
- Scopenote
- Definition
- Indexer
- Genitiv
- Plural
- Alternate Form
- Source
- Type
- Coincidence
- Themes
- Groups
- Coincidences
- Themes
- Groups
- Thesaurus references

Navigations Fenster
Wesentliche Funktionen

Das nachfolgende Bild zeigt eine typische Darstellung im Navigationsfenster.



Im Navigationsfenster werden auch Relationen geändert, angelegt oder gelöscht. Dies wird mit der Funktion "Relationmanager” erreicht. Änderungen werden pro Termpaar aber auch für ganze Selektionen von Termen durchgeführt. Reziproke Einträge werden automatisch erzeugt.

Grafische Darstellung
Wesentliche Funktionen

Das nachfolgende Bild zeigt eine typische Darstellung im Grafikfenster:

Typische Darstellung im Navigationsfenster


Einige Zusatzfunktionen

Der Reportgenerator
Wesentliche Funktionen

Sprachen

Eine wesentliche Eigenschaft der Spracheinstellung ist die Möglichkeit, Sprachen mit unterschiedlichen Zeichensätzen gleichzeitig darzustellen. Dazu muß aber auch das Betriebsystem des Rechners vorbereitet werden.

 

Export / Import
Alle Daten eines Thesaurus können exportiert und importiert werden. Als Format steht ein SGML Austauschformat zur Verfügung, das auch in anderen Anwendungen, wie etwa dem Umweltdatenkatalog, sowie den Programmen der europäischen Umweltagentur zur Anwendung kommt.

Benutzerverwaltung
Die Thesaurusdatenbank ist immer mit Nutzername und Passwort geschützt. Mittels eines mitgelieferten Tools können neue Nutzer mit entsprechenden Zugriffsrechten erzeugt werden.
Derzeit sind folgende Nutzergruppen verfügbar:
- Administrator
- Configuration (darf keine Nutzerrechte vergeben)
- Management (darf keine Thesaurusstrukturen ändern)
- Processing (darf keine Thesauri anlegen oder löschen)
- Report (darf keine Änderungen an den Daten vornehmen)
- Read (darf nur lesen)



THESshow: eine Anwendung zur Thesaurusvisualisierung
THESshow ist das Visualisierungswerkzeug für THESmain basierende Thesauri. Es wird derzeit für den Thesaurus des Umweltdatenkataloges (UDK T, Version 4.0) sowie für den Thesaurus der europäischen Umweltagentur (GEMET, Version 2.0) verwendet. Es gestattet dem Nutzer in einfacher Weise den Datenbestand zu durchsuchen. Zum Einstieg in die Daten eignet sich entweder die systematische Darstellung, wo von wenigen Topterms aus die Menge der Deskriptoren durch Durchwandern der Hierarchien erschlossen werden kann, oder die alphabetische Darstellung, wo durch Eingabe eines Wortes ein Einstiegspunkt gefunden werden kann. Es ist dabei möglich, per Knopfdruck von einer Darstellung in die andere zu wechseln, wobei auf den gleichen Term positioniert wird.
Das folgende Bild zeigt eine typische Ansicht in systematischer Darstellung. Beachten Sie bitte auch die gleichzeitige Darstellung verschiedener Zeichensätze im grau unterlegten Detailfenster.

Typische Ansicht in systematischer Darstellung


Wesentliche Funktionen


Das folgende Bild zeigt eine typische Ansicht in alphabetischer Darstellung. Deskriptoren sind dabei fett dargestellt. Die Schaltflächen mit den Pfeilen dienen zur Lokalisierung von Ober- und Unterbegriffen.

Typische Ansicht in alphabetischer Darstellung

Dieses Softwarewerkzeug läßt sich nicht nur für die Erstellung, Pflege und Visualisierung von Thesaurusdaten einsetzen. Jegliche hierarchische Struktur wie z.B. Organigramme großer Institutionen sind mit ihm leicht und optisch überzeugend darstellbar.
Nicht nur das ETC / CDS zur Verwaltung und Pflege des zwölfsprachigen Europäischen Umweltthesaurus GEMET und die Deutsch / Österreichische Kooperation zum UDK verwenden THESmain. Geplant ist weiters, künftig die Verwaltung des Infoterra - Thesaurus EnVoc des Umweltprogramms der Vereinten Nationen UNEP mittels THESmain vorzunehmen. Auch die amerikanische Umweltbehörde will THESmain zur Erweiterung des GEMET um Sprachen des pazifischen Raumes einsetzen.
Die Produkte "THESshow” und "THESmain" können auch für kundenspezifische Anforderungen adaptiert und zur Verfügung gestellt werden. Lizensierungsmodelle für den Bereich Forschung und Lehre sowie für die kommerzielle Nutzung können unter der e-Mail-Adresse: legat@ubavie.gv.at angefordert werden.




Namen und Adressen der Autoren:

Wolf - Dieter Batschi, Umweltbundesamt, Bismarckplatz 1, D - 14193 Berlin
Tel: ++ 49 (0)30 8903 - 2423; Fax: ++ 49 (0)30 8903 - 2102; e - Mail: wolf-dieter.batschi@uba.de
Internet: http://www.umweltbundesamt.de

Rudolf Legat, Umweltbundesamt, Spittelauer Lände 5, A - 1090 Wien
Tel: ++ 43 (0)1 31304 - 5404; Fax: ++ 43 1 31304 - 5400; e - Mail: legat@ubavie.gv.at
Internet: http://udk.ubavie.gv.at

Hermann Stallbaumer, Technisches Büro für Elektrotechnik TBHS, Favoritenstraße 182, A - 1100 Wien
Tel: ++ 00 43 (0)2236 76232 - 32; Fax: ++ 43 (0)2236 76232 - 76; e - Mail: hermann@tbhs.co.at




Umweltbundesamt
Federal Environment Agency - Austria
Spittelauer Lände 5, A-1090 Wien, Austria
Tel.: +43 1 31304-0, Fax: +43 1 31304-5400
URL: http://www.umweltbundesamt.at
Auskunft: Rudolf Legat
Letzte Änderung: 24.01.2000
Copyright © 1998 Umweltbundesamt

Homepage UDK   Homepage WGR