Umweltdatenkatalog Österreich - Wortgutredaktion


Erstellung, Wartung und Visualisierung multilingualer Thesauri mittels
"THESmain" und "THESshow"

Rudolf Legat¹ und Hermann Stallbaumer²

aus: Management von Umweltinformationen in vernetzten Umgebungen. 2. Workshop des Arbeitskreises "Hypermedia im Umweltschutz". S. 116. Umwelt-Informatik aktuell, Band 21. Metropolis Verlag, Nürnberg, März 1999.

Get Acrobat Reader Dieses Dokument ist auch im pdf-Format (31 KB) für Adobe Acrobat Reader erhältlich.



Abstract

1. Metainformationssysteme im Umweltbereich

2. Der Umweltdatenkatalog in Deutschland und Österreich

3. Das Europäische Metainformationssystem CDS und der Europäische Umweltthesaurus GEMET

4. Der Thesaurus des Umweltdatenkataloges (UDK-Thesaurus)

5. Die Entwicklung der Softwarewerkzeuge THESmain und THESshow

5.1. Anforderungen an die Software

5.2 Pflegesoftware THESmain

5.3 Visualisierungssoftware THESshow

Literaturverzeichnis


Abstract

At present, a General European Multilingual Environment Thesaurus (GEMET) in all the languages of the EU-member states is being developed within the working program of the "European Topic Centre for Catalogue of Data Sources & Thesaurus" (ETC/CDS), European Environment Agency, (EEA). GEMET is meant to support indexing of metadata within the CDS system.

At the same time emphasis is being put on an environmental Thesaurus based on the UBA-Berlin Thesaurus (Umweltbundesamt Berlin) established in co-operation between Germany and Austria for their common metainformation system "Environmental Data Catalogue" (Umweltdatenkatalog, UDK). Austrian UDK at http://udk.ubavie.gv.at.

To manage and maintain both the CDS-Thesaurus and the UDK-Thesaurus a THESaurus MAINtenance (THESmain) system as well as tool for visualising thesauri (THESshow) had been constructed by the ETC/CDS and the UDK-team Germany/Austria.

THESmain is fully operational since May 1997 for both levels (CDS and UDK). Both GEMET and UDK-Thesaurus are maintained in Vienna.

General information about THESmain:

General information about THESshow:

 

1. Metainformationssysteme im Umweltbereich

Die Suche nach Daten zu umweltbezogenen Themen gestaltet sich für Fachleute, insbesondere aber für die interessierte Öffentlichkeit nicht immer einfach, vor allem, wenn nicht bekannt ist, ob die gesuchten Daten überhaupt erhoben wurden, von wem sie erhoben wurden und wo man sie bekommen kann. Um diesem Informationsbedürfnis gerecht zu werden, wurden in den letzten zehn Jahren in vielen Staaten Umweltdatenkataloge aufgebaut. Diese Metainformationssysteme über umweltrelevante Datenbestände enthalten wichtige Hinweise über die Verwendbarkeit und den Zugriff auf die Daten, wie fachliche Beschreibung, fachlicher Kontext, Raum- und Zeitbezug sowie Angaben zur Zuständigkeit, Verfügbarkeit und Aktualität.

Auch die Gesetzgeber in den Staaten Europas unterstützen aus demokratiepolitischen Gründen die Entwicklung, den Zugang zu Umweltdaten so einfach wie möglich zu gestalten und darüber hinaus eine aktive Umweltinformationstätigkeit der Behörden zu entwickeln.

Entsprechend dem Katalog einer Bibliothek verzeichnet ein Umweltdatenkatalog die bei den Behörden vorhandenen Daten- und Informationsbestände, ohne diese selbst zu enthalten, er ist also ein Informationssystem über Informationsbestände. Im UDK werden die Datenbestände anhand definierter Eigenschaften beschrieben und mit der Adresse eines zuständigen Ansprechpartners verknüpft.

Die wesentlichen Aufgaben und Vorteile eines UDK sind demnach folgende:

Wesentlichen Einfluß auf ein zufriedenstellendes Recherchen-Ergebnis im UDK hat eine einheitliche Beschreibung und Beschlagwortung der Datenbestände, die bereits bei der Dateneingabe die unterschiedlichsten Sichtweisen potentieller UDK-Nutzer auf Datenbestände vorwegnehmen muß. Sie muß daher einerseits so detailliert sein, daß sie auch für Experten von Nutzen ist, aber gleichzeitig so allgemein, daß sie auch von Laien des betreffenden Fachgebietes verwendet werden kann. Diese Aufgabe kann nur ein "Thesaurus" erfüllen, "eine systematisch geordnete Sammlung aller sprachlichen und sonstigen Beziehungen eines bestimmten Anwendungsbereiches". Dessen Anbindung an ein Metainformationssystem soll einen flächendeckend homogenen Metadatenbestand gewährleisten, um einer Vielzahl von unterschiedlichen Anwendern als adäquates Instrument zur Datenverwaltung, -pflege und –recherche zu dienen. Die Entwicklung und die konsequente Anwendung eines Thesaurus zur Indexierung der Daten stellt daher bei der Realisierung eines UDK ein wichtiges Element dar.

 

2. Der Umweltdatenkatalog in Deutschland und Österreich

Im Rahmen eines vom Umweltministerium in Bonn geförderten F&E-Vorhabens wurde seit 1991 im Niedersächsischen Umweltministerium mit dem Aufbau des UDK begonnen. An dieser Entwicklung beteiligten sich weitere zehn Bundesländer im Rahmen einer Kooperation, um den UDK flächendeckend in Deutschland einzusetzen. 1995 konnte in Deutschland die Verwaltungsvereinbarung zum UDK zwischen Bund und Ländern beschlossen werden, um den Einsatz, die Erfassung und die Anwendungsentwicklungen zum UDK koordiniert voranzutreiben.

In Österreich wurde, im Rahmen der Umsetzung der Richtlinie 90/313/EWG des Rates der Europäischen Gemeinschaften vom 7. Juni 1990 über den freien Zugang zu Informationen über die Umwelt, das Umweltinformationsgesetz (UIG 1993) beschlossen. Dieses sieht im Sinne einer modernen und offenen Umweltverwaltung sowie einer erleichterten Bürgerpartizipation in 10 die Einrichtung eines Umweltdatenkataloges als Zugangssystem zu Umweltdaten vor. Das UIG verleiht dem einzelnen durch die Verpflichtung der Behörden und Ämter, ihre Umweltdaten transparent zu halten, einen neuen Informationsanspruch im Sinne demokratischer Mitgestaltung.

Im August 1993 schlossen Deutschland und Österreich eine "Vereinbarung über die Zusammenarbeit beim Aufbau, bei der Entwicklung und bei der Pflege eines gemeinsamen Umweltdatenkataloges ab. Im Rahmen dieser Kooperation übernahm Österreich die Aufgabe der Koordinierung, Entwicklung und Pflege eines Thesaurus (UDK-Thesaurus) sowie aller dazu erforderlichen Softwarewerkzeuge. Dieses normierte Wortgut hilf dabei, die Daten im UDK einer einheitlichen, semantisch vergleichbaren inhaltlichen Erschließung zu unterziehen und sie gezielt wiederzufinden.

Grundlage des UDK-Thesaurus ist der Thesaurus des Umweltbundesamtes Berlin, der seit vielen Jahren für die Datenbanken des Umweltplanungs- und Informationssystems (UMPLIS) eingesetzt wird.

Mit Hilfe des UDK und des UDK-Thesaurus lassen sich mehr Informationen von höherer Qualität auf effektivere Art und Weise beschaffen und verwalten als vorher. Dies führt zu einer spürbaren Verbesserung der Informationsversorgung sowohl der interessierten Bevölkerung als auch der Umweltverwaltungen und damit zu einem effizienteren Umweltschutz.

Dem Stand der Technik entsprechend ist der UDK Österreich seit März 1996 unter der Adresse http://udk.ubavie.gv.at im Internet zugänglich. Bislang wurden etwa 550.000 Zugriffe aus 60 Staaten von 12.000 verschiedenen Hosts registriert. Der UDK beinhaltet etwa 12.000 Datensätze (UDK-Objekte) und 1100 Adressinformationen (UDK-Adressen).

 

3. Das Europäische Metainformationssystem CDS und der Europäische Umweltthesaurus GEMET

Das große Interesse europäischer Staaten an der Entwicklung des technisch und organisatorisch weit fortgeschrittenen UDK trug zur Entscheidung der Europäischen Umweltagentur (EEA) in Kopenhagen bei, das Metainformationssystem "Catalogue of Data Sources" (CDS) auf der Basis des UDK zu entwickeln. Dazu wurde ein entsprechendes "European Topic Centre" (ETC/CDS) im Niedersächsischen Umweltministerium eingerichtet.

Der CDS wird ausgewählte Umweltinformationen der Mitgliedstaaten enthalten, die auf der Ebene der EU von Relevanz sind. Das vorrangige Ziel des CDS besteht darin, eine nahtlose Suche in den verteilten europäischen Katalogen zu ermöglichen und Teil eines "Global Information Locator System" zu sein.

Die Voraussetzung dafür, mittels des CDS die Sprachgrenzen im EU-Raum zu überwinden, ist der Aufbau und Einsatz eines multilingualen Umweltthesaurus. Diese Aufgabe soll GEMET (General European Multilingual Environment Thesaurus) leisten, der im Rahmen von CDS entwickelt wird. GEMET wird etwa 5000 Begriffe in allen Sprachen der EU-Mitgliedstaaten enthalten und von einer umfassenden Terminologie-Datenbank unterstützt werden. Die Version 1 steht seit Ende 1997 zur Verfügung, die Version 2 in vorerst elf Sprachen ist für Mai 1999 zu erwarten.

 

4. Der Thesaurus des Umweltdatenkataloges (UDK-Thesaurus)

Allgemein formuliert ist ein Thesaurus ein "hierarchisch strukturierter, begrenzter Wortschatz, welcher der natürlichen Sprache entnommen ist und der ein Hilfsmittel für das vereinheitlichte Beschreiben ("Indexieren") und Auffinden von Informationen eines bestimmten Fachgebietes mittels normierter Begriffe ("Deskriptoren") darstellt."

In großem Umfang entstand z.B. der Bedarf an Thesauri aus Effizienzgründen bei multinationalen Konzernen aus dem Pharma-, Automobil-, sowie Luft- und Raumfahrtbereich.

Der UDK-Thesaurus ist ein wesentlicher Bestandteil des UDK. Wie bereits erwähnt, dient als dessen Grundlage der Umweltthesaurus des Umweltbundesamtes Berlin, welcher auch maßgeblich in die Entwicklung des europäischen Umweltthesaurus "GEMET" eingeflossen ist.

Derzeit enthält der UDK-Thesaurus etwa 24.500 Begriffe (ca. 8.500 Deskriptoren und 16.000 Non-Deskriptoren.

Der UDK-Thesaurus 3.0 ist ein deutschsprachiger Thesaurus, der ins Englische übersetzt wurde. Dabei wurden die dt. Deskriptoren übersetzt, den Übersetzungen aber eigene Non-Deskriptoren (N.) beigefügt. Daher ist die Struktur des Thesaurus in beiden Sprachen gleich, jeder Term hat somit in beiden Sprachen die gleichen Ober- und Unterbegriffe. Die zu einem Deskriptor gehörenden Synonyme (Non-Deskriptoren) sind jedoch für beide Sprachen verschieden, d.h. die Non-Deskriptoren wurden nicht übersetzt, sondern für jede Sprache stehen unterschiedliche N. zur Verfügung. Die Menge der N. ist somit in jeder Sprache unterschiedlich.

Bei der Weiterentwicklung des UDK-Thesaurus muß auf die Entwicklung des UDK Bedacht genommen werden. Erweiterungen werden notwendig, wenn

Um die Inhalte des UDK-Thesaurus ständig an die Bedürfnisse der UDK-Nutzer (sowohl der indexierenden Behörden als auch der Informationssuchenden) anzupassen, wurde das internationale Gremium "Wortgutredaktion" (WGR) gegründet, welches sich aus Behördenvertreter und Umweltfachleuten der Kooperationspartner zusammensetzt, gegründet.

Die Arbeit der Wortgutredaktion hat die folgenden Schwerpunkte:

Grundlage der Arbeit sind die internationalen Normen ISO 2788 (documentation – Guidelines for the Establishment and Development of Monolingual Thesauri) und ISO 5964 (Documentation – Guidelines for the Establishment and Development of Multilingual Thesauri) bzw. die entsprechende DIN-Norm 1463 Teil 1 und 2.

 

5. Die Entwicklung der Softwarewerkzeuge THESmain und THESshow

5.1. Anforderungen an die Software

Wie bereits erwähnt hat Österreich innerhalb der Kooperation zum UDK die Aufgabe übernommen, eine "Koordinierungsstelle Thesaurus" einzurichten mit dem Ziel, einen Thesaurus für den Umweltdatenkatalog zu entwickeln, bereitzustellen und zu pflegen. Dies beinhaltet auch die Bereitstellung aller erforderlichen Softwarewerkzeuge.

Thesauri sind langlebige Produkte, die über viele Jahre (Jahrzehnte) hinweg gepflegt werden müssen. Die Pflege erfolgt meist zentral von einer kleinen Anzahl von Personen (Experten). Im Gegensatz dazu steht eine meist große Anzahl von Anwendern, die den Thesaurus benutzen aber keinesfalls Änderungen an den Daten durchführen dürfen. Früher wurden Thesauri ausschließlich in gedruckter Form verwendet, heute stehen elektronische Medien mit all ihren Vorzügen im Vordergrund. Eine Software zur Thesauruspflege besteht daher sinnvollerweise aus zwei Teilen:

Durch die Langlebigkeit von Thesaurusdaten empfiehlt sich die Verwendung eines weit verbreiteten Datenbankformats, um bei neuen Betriebssystemen eine problemlose Portierung zu gewährleisten. Da besonders das Visualisierungsmodul von einer großen Anzahl von Nutzern verwendet wird, welche nicht immer EDV-Experten sind, empfiehlt sich eine standardisierte Benutzerschnittstelle um eine intuitive Bedienung der Software zu erleichtern.

Marktrecherchen im Jahr 1995 haben ergeben, daß zu diesem Zeitpunkt keine Thesaurussoftware am Markt verfügbar war, die geeignet gewesen wäre, die speziellen Anforderungen der deutsch-österreichischen Zusammenarbeit sowie die des ETC/CDS zu erfüllen. Diese sind im Besonderen:

 

5.2 Pflegesoftware THESmain

Zur Erstellung und Wartung des UDK-Thesaurus im EDV-technischen Sinn wurde das Pflegeprogramm "THESmain" in gemeinsamer Beauftragung durch das Bundesministerium für Umwelt, Jugend und Familie/Umweltbundesamt und das "ETC/CDS" der Europäischen Umweltagentur (EEA) entwickelt. THEsmain dient zur Wartung sowohl des UDK-Thesaurus als auch des GEMET. Geplant ist weiters, künftig auch die Verwaltung des ENVOC-Thesaurus der UNEP mittels THESmain vorzunehmen.

Die Software kann generell zur Einrichtung, Pflege und Visualisierung von mono- und multilingualen Thesauri eingesetzt werden, es kann mehrere Thesauri gleichzeitig verwalten und Daten zwischen mehreren Thesauri austauschen. Jeder Thesaurus kann Begriffe in bis zu 30 Sprachen enthalten. Externe Datenbanken (Microthesauri) können einem Begriff zugeordnet werden.

Einige weitere Merkmale mögen der Aufstellung im Abstract dieser Publikation entnommen werden. Eine Demoversion sowie die Dokumentation des Tools können über einen Server des Umweltbundesamtes Wien bezogen werden.

 

5.3 Visualisierungssoftware THESshow

Die Erstellung dieses Tools wurde vom UBA Wien beauftragt mit dem Ziel, den UDK-Thesaurus Version 3.0 in Form einer CD-ROM den Partnern sowie den interessierten Nutzern anzubieten.

THESshow eignet sich zur Präsentation der mittels THESmain erzeugten Datenbestände und zum Arbeiten mit dem Thesaurus beim Indexieren oder Suchen in einer Datenbank.

Ebenso wie THESmain ist es multilingual bezüglich der Inhalte. Wird die Darstellung "Deutsch" gewählt, werden die Begriffe in deutscher Sortierung und mit deutschsprachigen Relationen gezeigt. Bei englischer Darstellung werden die Begriffe mit englischen Relationen, englischer Sortierung usw. dargestellt. Im Detailfenster werden die deutschen Übersetzungen und Synonyme gezeigt. Somit ist der UDK-Thesaurus auch für englische Fachliteratur verwendbar.

Die Benutzeroberfläche kann wahlweise in mehreren Sprachen beim Programmstart gewählt werden.

THESshow bietet folgenden Funktionsumfang:

THESshow wird in Kürze auch mit GEMET erhältlich sein.

 

Literaturverzeichnis

Batschi, W-D. (1994): "Environmental Thesaurus and Classification of the Umweltbundesamt (Federal Environmental Agency), Berlin", Berlin 1994

Batschi, W-D. (1995): "Development and State-of-the-Art of the German Environmental Thesaurus (UBA-Thesaurus) and User Experience in Germany", Berlin 1995

Bundesgesetz über den Zugang zu Informationen über die Umwelt (Umweltinformationsgesetz – UIG 1993), BGBL 495/93, Wien 1993

Bundesministerium für Umwelt, Jugend und Familie (1993): "Das Recht auf Umweltinformation", Informationsbroschüre, Wien 1993

Bundesministerium für Umwelt (1995): "Grundlagen und Methodik des Umweltdatenkataloges", Schriftenreihe zum UDK, Band 1, Wien 1995

Bundesministerium für Umwelt, Naturschutz und Reaktorsicherheit (1998): "UDK Version 4.0, Benutzerhandbuch", Bonn, Hannover, 1998

European Environment Agency (1996): Newsletter issue 8, Copenhagen, June 1996

Günther, O. (1995): "Gutachten zur Entwicklung des Umwelt-Datenkataloges (UDK)", Humboldt-Universität zu Berlin, Jänner 1995

Hashemi-Kepp, H., Legat, R. (1996): "Der Umweltdatenkatalog, ein Anwendungsbeispiel für Metainformationssysteme", Informatikforum Band 10, Wien September 1996

Legat, R., Hashemi-Kepp, H. (1994): "Der Umweltdatenkatalog – Ein bundesweites Metainformationssystem über umweltrelevante Datenbestände", VGI – Österreichische Zeitschrift für Vermessung & Geoinformation, Heft 1+2/94, Wien 1994

Schober, W., Lopatta, H. (1994): Umweltinformationsgesetz. Verlag Österreich, Wien 1994

Umweltbundesamt Berlin, Umweltbundesamt Wien (1997): "Thesaurus des Umweltdatenkatalogs (UDK-Thesaurus 3.0)", Band I bis III, Berlin, Wien 1997

Umweltbundesamt Berlin, Umweltbundesamt Wien (1998): "THESshow", Thesaurus des Umweltdatenkatalogs (UDK-Thesaurus 3.0)", CD-ROM, Berlin, Wien 1998

 


¹ Umweltbundesamt Wien, Spittelauer Lände 5, A-1090 Wien email: legat@ubavie.gv.at, Internet: http://udk.ubavie.gv.at

² Fa. TBHS, Favoritenstraße 182, A-1100 Wien, email: hermann@tbhs.co.at





Umweltbundesamt
Federal Environment Agency - Austria
Spittelauer Lände 5, A-1090 Wien, Austria
Tel.: +43 1 31304-0, Fax: +43 1 31304-5400
URL: http://www.umweltbundesamt.at
Auskunft: Rudolf Legat
Letzte Änderung: 24.01.2000
Copyright 1998 Umweltbundesamt

Homepage UDK   Homepage WGR