Datenmodell und Aufbau von DocPortal

Eine Übersicht

Die folgende Skizze soll eine Übersicht über die Zusammenhänge der einzelnen Daten geben. In den anschließenden Abschnitten werden diese dann näher erläutert. Die Datenmodelle der Typen document und disshab sowie author und person unterscheiden sich lediglich in der Frage der Pflichtfelder. Die Typen disshab und person sind für einen Dissertations-Server (DOL) gedacht und sind in der Grundversion von DocPortal nicht enthalten.

Metadaten

Abbildung 5.1: Zusammenhänge der einzelnen Metadaten

Die Document-Daten

Das Datenmodell der Dokumente ist ein Kompromiss zwischen den einzelnen abzubildenden Datenmodellen bisher bestehender Projekte. Gleichzeitig sollen auch Anforderungen an die Zukunft, wie das xMetaDiss Datenmodell oder OAI berücksichtigt werden. Entscheidend für die Gestaltung der Daten mit MyCoRe sind vor allem die MyCoRe-Datentypen. Die Festlegungen zur Wiederholbarkeit der Angaben bezieht sich immer auf eine Sprache. Die meisten Felder sind optional und können bei Bedarf verwendet werden.

Einzelne Applikationen werden nur einen Teil der angegebenen Felder ausfüllen. Es ist daher sinnvoll sich auf eine allgemeine Mindestmenge von Pflichtfeldern zu einigen, um eine korrekte Suche über mehrere Instanzen und Projekte zu gestatten. Bei einigen Feldern ist dies aber von den Spezifika des jeweiligen Projektes abhängig.

Die Suchmöglichkeiten (parametrisch/Freitext) beziehen sich auf die Metadaten. Hinzu kommt die Volltextsuche im Dokument. Die Felder des Dublin Core Datenmodells sollten immer implementiert und wenn möglich mit Daten gefüllt sein. Auf sie beziehen sich auch die Suchen externer Datenanbieter bzw. Teilnehmer am MyCoRe- oder OAI Datenverbund. Um späteren Problemen mit nicht-Latin1-Sprachen aus dem Weg zu gehen sollen alle Metadatensätze und die Internet-Anwendung UTF-8 als Codierung verwenden.

Nr. Bezeichner Bemerkung Pfl. wied. Suche MCR-Type
1 Titel (DC) Haupttitel und ggf. weitere Titel ja ja param. Freitext MCRMetaLangText
2 Creator (DC) Name eines Autors ohne Verweis ja ja Param. Freitext MCRMentLangText
3 CreatorLink Daten des Autor oder Schöpfer des Objektes nein ja param. MCRMetaLinkID
4 Subject (DC) Ordnungskriterien in Klassifikationen ggf. ja param. MCRMetaClassification
5 Origin Zugehörigkeit zu einer Einrichtung als Klassifikation ja ja param. MCRMetaClassification
6 Description (DC) Kurzbeschreibung des Objektes nein ja param. Freitext MCRMetaLangText
7 DescriptURL Link zu Kurzbeschreibungen nein ja param. MCRMetaLink
8 Publisher (DC) Name des Veröffentlichers des Objektes nein ja param. Freitext MCRMetaLangText
9 PublisherLink Daten des Veröffentlichers des Objektes nein ja param. MCRMetaLinkID
10 Contributor (DC) Name des Beteiligten an der Erstellung des Objektes nein ja param. Freitext MCRMetaLangText
11 ContribLink Daten des Beteiligten an der Erstellung des Objektes nein ja param. MCRMetaLinkID
12 Date (DC) Datumsangaben zum Objekt nein ja param. MCRMetaISO8601
13 Type (DC) Typ des Objektes als Klassifikation ja ja param. MCRMetaClassification
14 Format (DC) Format des Objektes als Klassifikation ja ja param. MCRMetaClassification
15 Identifier (DC) Angaben zur Identifikation des Objektes nein ja param. Freitext MCRMetaLangText
16 Source (DC) Angaben zu den Quellen des Objektes nein ja param. Freitext MCRMetaLangText
17 SourceLink Link zu Angaben zu den Quellen des Objektes nein ja param. MCRMetaLink
18 Languages (DC) Sprache als Klassifikation nein ja param. MCRClassification
19 Keywords Schlüsselworte als verbaler Text nein ja param. Freitext MCRMetaLangText
20 Coverage (DC) Angaben zu der Erstreckung des Objektes nein ja param. Freitext MCRMetaLangText
21 CoverageLink Link zu Angaben zu der Erstreckung des Objektes nein ja param. MCRMetaLink
22 CoverageDate Datumsangaben zur Erstreckung des Objektes nein ja param. MCRMetaDate
23 Relation (DC) Textlicher Verweis auf externe Referenzen nein ja param. Freitext MCRMetaLangText
24 RelationLink Verweise auf externe Referenzen nein ja param. MCRMetaLink
25 RelationISBN ISBN als Relation. neinnein param. MCRMetaISBN
26 Rights (DC) Angaben zu den Rechten des Objektes nein ja param. Freitext MCRMetaLangText
27 RightsLink Link zu Angaben zu den Rechten des Objektes nein ja param. MCRMetaLink
28 Size Angaben zu Seitenanzahl, Bilder, Tabellen usw. nein ja param. MCRMetaLangText
29 Place Erscheinungsort nein nein param.Freitext MCRMetaLangText
30 ISBN eindeutige ISBN neinnein param.MCRMetaISBN
31NBN eindeutige NBN nein nein param. MCRMetaNBN
32 URN eindeutige URN nein ja param. MCRMetaLink
33 DDBContact Eindeutiger Identifizierer der DB neinnein nein MCRMetaLangText
34 Notes Anmerkungen zum Objekt nein ja Freitext MCRMetaLangText
35 Citation Zitierweise nein ja nein MCRMetaLangText

Tabelle 5.1: Das neue Metadaten-Modell der Dokumente

Ausfüllhinweise:

Die Zahlen in Klammern geben die maximale Zeichenlänge pro Kardinalität an.

Nr. Bezeichner Ausfüllhinweis
1 Titel(1024)
  • Pro Titeltyp können mehrere Sprachen benutzt werden.
  • Haupttitel werden mit type=“main“ markiert.
  • Alternative Titel werden mit type=“alt“ markiert.
  • Untertitel werden mit type=“subtitle“ markiert.
2 Creator(128)
  • Für Habilitationen und Dissertationen Verfasser in Vorlageform.
  • Sonst Autorname als Text.
3 CreatorLink Verweis auf einen Personen-Datensatz.
4 Subject
  • Verweise auf Kategorien von Klassifikationen, in die das Dokument eingeordnet ist.
  • Für Habilitationen und Dissertationen in Leipzig --> Regensburger Systematik (ID der RS)
  • Weitere bibliotheksinterne Sachgruppen
5 Origin Auswahlliste, zu welcher Einrichtung das Objekt gehört.
6 Description(4096) Beschreibende Informationen.
  • Für den Beschreibungstext type=“description“.
  • Für Abstract type=“abstract“.
  • Für die Inhaltsangabe type=“content“.
7 DescriptURL Vereis auf externe Beschreibungstexte.
  • Für den Beschreibungstext type=“description“.
  • Für Abstract type=“abstract“.
  • Für die Inhaltsangabe type=“content“.
8 Publisher(128) Textliche Bezeichnung des/derHerausgeber(s).
9 PublisherLink Verweis auf einen Personen- oder Institutionen-Datensatz.
10 Contributor(128) Textliche Bezeichnung des/der Beteiligten.
  • Für den Typ können Informationen wie „advisor“ , „mentor“, „drawer“ usw. angegeben werden.
11 ContributorLink Verweis auf einen Personen- oder Institutionen-Datensatz.
  • Für den Typ können Informationen wie „advisor“ , „mentor“, „drawer“ usw. angegeben werden.
12 Date
  • Für allgemeine Dokumente Datum der Einstellung type=“create“.
  • Für das Datum der Einreichung zur Dis./Habil.der Arbeit type=“submit“.
  • Für das Datum der Verteidigung zur Dis./Habil.der Arbeit type=“accept“.
  • Für das Datum der Beschlussfassung zur Dis./Habil. der Arbeit type=“decide“.
13 Type Auswahlliste inkusive „Dissertation“ und „Habilitation“
14 Format Auswahlliste
15 Identifier(128) ggf. Bibliothekssignatur
16 Source(1024)
17 SourceLink
18 Language Siehe Anmerkungen zur Sprachnotation.
19 Keywords(128) Verbal anzugebende Schlüsselworte / Stichworte.
20 Coverage(1024)
21 CoverageLink
22 CoverageDate
23 Relation(1024)
  • Angabe zum Erscheinen des Werkes.
  • Verbaler Verweis auf vorangegangene Versionen.
24 RelationLink Link auf vorangegangene Versionen.
25 RelationISBN Verweis auf eine ISBN Nummer.
26 Right(1024) Verbale Beschreibung der Urheberrechte.
27RightsLink Verweis auf eine URL mit den Lizenz- und/oder Urheberrechten.
28Size(1024) Verbale Aufzählung von Seite, Abbildungen, usw. lt. Vorgabe der Bibliothek.
Für Leipzig z. B. : xxx S. : Ill., graph. Darst.
29 Place(1024) Erscheinungsort
30 ISBN(32)
31 NBN(256)
32 URN(256)
33 DDBContact(1024)
34 Notes(4096)
  • Für SWB Fußnoten type=“feet“.
  • Für SWB Kommentare type=“coment“.
35 Citation4096) Verbale Angabe der Zitierweise.

Tabelle 5.2: Ausfüllhinweise zum neuen Datenmodell der Dokumente

Das Datenmodell für Institutionen

Für Institutionen wurde ein Datenmodell entwickelt, welches sich hauptsächlich an dem Einsatz im dienstlichen Gebrauch orientiert.

Nr. Bezeichner Bemerkung Pfl. wied. Suche MCR-Type
1 Name Angaben zum Namen einer Institution ja nein param. Freitext MCRMetaCorporationName
2 Address Angaben zur Adresse nein ja nein MCRMetaAddress
3 Phone Telefonnummern / Fax nein ja nein MCRMetaLangText
4 URL URL’s nein ja nein MCRMetaLangText
5 eMail eMails’s nein ja nein MCRMetaLangText
6 Note Bemerkungen nein ja nein MCRMetaLangText

Tabelle 5.3: Das neue Metadaten-Modell für Institutionen

Ausfüllhinweise:

Nr. BezeichnerAusfüllhinweis
1 Name
2 Address
3 Phone
  • für Telefonnummern type="phone"
  • für Faxe type="fax"
4 URL
5 eMail
6 Note

Tabelle 5.4: Ausfüllhinweise für das neue Metadaten-Modell für Institutionen

Das Datenmodell für natürliche Personen

Für natürliche Personen hingegen ist ein umfangreicheres Datenmodell erforderlich. Dieses ist in der angebotenen Variante vor allem auf dienstliche Belange abgestimmt.

Nr. Bezeichner Bemerkung Pfl. wied. Suche MCR-Type
1 Name Angaben zum Namen einer Person ja nein param. Freitext MCRMetaPersonName
2 Female Angaben zum Geschlecht der Person ja nein param. MCRMetaBoolean
3 Institution Verweis auf die Institution, zu der die Person gehört ja ja param. MCRMetaClassification
4 Address Angaben zur Adresse nein ja nein MCRMetaAddress
5 Phone Telefonnummern nein ja nein MCRMetaLangText
6 Date Datumsangeben wie Geburtsdatum, usw. nein ja param. MCRMetaISO8601
7 Profession Berufsbezeichnung / Amt nein ja nein MCRMetaLangText
8 ProfClass Berufsbezeichnung / Amt als Klassifikationseintrag nein ja param. MCRMetaClassification
9 National Nationalität nein ja param. MCRMetaClassification
10 URL URL’s nein ja nein MCRMetaLink
11 eMail eMails’s nein ja nein MCRMetaLangText
12 Reference Externe Referenzen nein ja nein MCRMetaLink
13 Note Anmerkungen nein ja nein MCRMetaLangText
14 Publications Publikationen nein ja nein MCRMetaLangText

Tabelle 5.5: Das neue Metadaten-Modell für Personen

Ausfüllhinweise:

Nr. Bezeichner Ausfüllhinweise
1 Name
2 Female
  • weiblich ist true; männlich ist false
3 Institution
4 Address
  • Für das Büro ist type=“office“ anzugeben.
  • Für die private Adresse ist type=“private“ anzugeben.
5 Phone
6 Date
  • Für das Geburtsdatum ist type=“birth“ anzugeben.
7 Profession
  • Für den Beruf ist type=“profession“ anzugeben.
  • Für die Tätigkeit ist type=“job“ anzugeben.
8 ProfClass
9 National
10 URL
11 eMail
12 Reference
13 Note
14 Publications

Tabelle 5.6: Ausfüllhinweise für das neue Metadaten-Modell für Personen

Klassifikationen

Klassifikationen sollen eine Suche / Präsentation von einheitlichen Begriffen gewährleisten. Da letztendlich jede Einrichtung selbst für die Auswahl der verwendeten Klassifikation verantwortlich ist, können hier nur Empfehlungen ausgesprochen werden, um eine gemeinsame Instanzen-übergreifende Suche zu ermöglichen. Achtung, in einem Verbund sollte man sich darüber im Klaren sein, dass Streichungen von Kategorien einer Klassifikation zu Fehlern führen können! Ergänzungen hingegen sind unkritisch.

Subjekte

Die Klassifikationen der Subjekte sind wohl das größte Problem bei der Suche nach einem gemeinsamen Nenner. Andererseits kann hier auch toleriert werden, das eine große Individualität der einzelnen Anwendungen herrscht, wenn man bereit ist, Diskrepanzen bei der Suche hinzunehmen bzw. dieses Feld von einer gemeinsamen übergreifenden Suche auszuschließen. Einige Klassifikationen sind schon für MyCoRe realisiert, andere bedürfen noch einer Umsetzung. Eine Übersicht gibt die folgende Tabelle.

Klassifikation in DocPortal MCRObjectID im Sample
Basisklassifikation (GBV) nein
Sachgruppen der Deutschen Nationalbibliographie (DNB) ja DocPortal_class_00000007 ja
Dewey Decimal Classifikation (DDC) ja DocPortal_class_00000009
Regensburger Verbundklassifikation (RKV) nein
Mathematics Subject Classifikation (msc1991) nein
Physics and Astronomy Classification Scheme (pacs2003) ja DocPortal_class_00000010
ACM Computing Classification System (ccs1998) nein
Zentralblatt für Didaktik der Mathematik (zdm) nein
Library of Congress Classification Scheme (LCC) nein
Universam Decimal Classification Scheme (UDC) nein
National Library of Medicine Classification Scheme (NLM) nein
Mathematics Subject Classifikation (msc2000) nein
Schlagwortnormdatei (SWD) nein
Library of Congress Subject Headings Scheme (LCSH) nein
Medical Subject Headings Scheme (MeSH) nein
Unified Medical Language System Scheme (UMLS) nein

Tabelle 5.7: Potentielle Klassifikationen für DocPortal

Herkunft

Diese Klassifikation beinhaltet eine Liste von Grundeinträgen für die beteiligten Einrichtungen. Diese Grundeinträge sind durch den jeweiligen DocPortal-Anwender für sich um eine weitere Untergliederung näher zu spezifizieren. Ziel dieser Grundeinrichtung ist eine grobe Suchbarkeit der Daten auch von Anwendungen anderer Portal-Teilnehmer aus (Beispiel: Suche von Objekten aus Leipzig in Jena). Es erscheint sinnvoll, für die Herkunft die Möglichkeit einer Anbindung von URL's an die jeweilige Kategorie, wie sie MyCoRe bietet, auszunutzen, somit kann direkt auf die Web-Seite eines Institutes oder einer Einrichtung referenziert werden.

Typ

Da sich das xMetaDiss Konzept nur für Dissertation und Habilitationen verantwortlich fühlt, ist eine Integration in MILESS/MyCoRe relativ einfach möglich. DocPortal sieht daher alle in MILESS bisher verwendeten Typen vor. Ergänzungen durch die Anwender von DocPortal können problemlos durchgeführt werden.

Format

Die Festlegung der Format-Klassifikation ist sehr schwierig. METADISS sieht hier zum Beispiel die MIME-Types vor. In MILESS/MyCoRe werden hier verbale Einstufungen benutzt. Dabei sollten wir auch bleiben, da wir ja ggf. eine Menge von Objekten mit einem Metadatensatz versehen (Derivate). Aus der Speichertabelle dieser Derivate können die erforderlichen Mime-Types gewonnen werden.

Sprache

Die Language Klassifikation ist eine Abbildung der Sprachen nach ISO-639-1. Ggf. werden diese Sprachkürzel um Länderkürzel nach ISO Norm 3166 erweitert werden (z. B. eng-US). Um Konform zur XML-Notation zu sein, wird gemäß Spezifikation die Form ...[-CC] gewählt, wobei ... der 3-stellige Sprachcode ist. Diesem kann sich das Länderkürzel mit Minuszeichen anschließen.

Nationalität

Die Klassifikation der Nationalitäten umfasst eine einfache Liste der gängigsten Nationalitäten. Eine Ergänzung ist jederzeit möglich.

Übersicht der DocPortal-Klassifikationen

Die nachfolgende Tabelle gibt eine Übersicht der mitgelieferten Klassifikationsmuster, wie sie Verwendung finden. Diese Muster müssen für eine Nachnutzung entsprechend angepasst werden. Gleichzeitig erfolgt mit dem weiteren Projektausbau auch die Erweiterung dieser Klassifikationen.

MCRObjectID Inhalt der Klassifikation
DocPortal_class_00000001 Eine Liste der möglichen Nationalitäten.
DocPortal_class_00000002 Eine Grundliste der beteiligten Universitäten und Firmen. Diese Liste ist nicht fein struktueriert, dies müssen die Anwender selbst vornehmen. Im description Attribut der Kategorien können MCRObjectID's der Institutionen abgelegt werden.
DocPortal_class_00000003 Analog zu DocPortal_class_00000002..
DocPortal_class_00000004 Eine Liste der möglichen Sprachen.
DocPortal_class_00000005 Eine Liste der Typen
DocPortal_class_00000006 Eine Liste der Formate
DocPortal_class_00000007 Eine Liste der Sachgruppen DNB
DocPortal_class_00000008 Eine Liste der Berufe
DocPortal_class_00000009 Die DDC-Klassifikation
DocPortal_class_00000010 Die PACS-Klassifikation

Tabelle 5.8: DocPortal-Klassifikationen