Opened 7 years ago

Last modified 6 years ago

#1011 assigned defect

BBAW - teiHeader - bad curation score

Reported by: matej.durco@oeaw.ac.at Owned by: haaf@bbaw.de
Priority: major Milestone:
Component: MetadataCuration Version:
Keywords: Cc: Twan Goosen, Menzo.Windhouwer@mpi.nl, matej.durco@oeaw.ac.at, Christian Thomas, haaf@bbaw.de, teckart@informatik.uni-leipzig.de

Description

Colleagues from BBAW were complaining about the score their collection gets in curation module. See email below.

In this issue we collect info/pointers on the individual facet-coverage issues raised:

  • Licensing/availability information is however indeed missing also in VLO. See #1009 for details
  • Format / mime-type seems indeed curation-module related, the facet has full coverage in VLO

Email from Christian Thomas [originally 2016-11!]:

-------- Weitergeleitete Nachricht --------
Betreff: Re: curation report for BBAW
Datum: Thu, 24 Nov 2016 15:41:20 +0100
Von: Christian Thomas <Christian Thomas>

An: Durco, Matej <Matej.Durco@oeaw.ac.at>

Kopie (CC): Susanne Haaf <haaf@bbaw.de>, Kai Zimmer <Kai Zimmer>, Alexander Geyken <geyken@bbaw.de>

Lieber Matej, Susanne hat sich dem angenommen, hier der Link zu unserem CMDI-Schema dazu:
http://media.dwds.de/dta/media/schema/cmdi-header.xsd
Das sollte alle Fragen erst einmal beantworten, bitte schau mal, wie ihr die Informationen, die ja offensichtlich da sind, bei eurer Evaluation auch berücksichtigen könnt:
Am 24.11.2016 um 15:31 schrieb Susanne Haaf:
verstehe nicht so recht, was das Problem ist. Such mal auf https://vlo.clarin.eu mal "abel leibmedicus" oder "Vorlesungen über physicalische Geographie" suchst. Wenn Du da in die Facetten guckst: Da sind doch die meisten der angemahnten Infos drin. Das heißt, sie kommen bei uns vor (was wir ja schon wussten) und sie werden auch VLO-seits ausgewertet. Wo also tritt das beschriebene Problem denn eigentlich auf?
Ansonsten hier meine Antwort zu Matejs Punkten:
(1) Unser CMDI-Profil unterstützt nicht alle Facetten, weil sich nicht alles gut mit der TEI abbilden lässt. Wie man das lösen kann, darüber habe ich schon mit Axel gesprochen und auch mit Lene Offersgaard aus Kopenhagen, die dasselbe Problem mit ihrem TEI-basierten CMDI-Profil hatten. Da werden wir da Profil überarbeiten müssen. Nach Axels Ausscheiden aus CLARIN-D werde ich dafür wohl verantwortlich sein -- somit wird das aber kurzfristig nichts, sondern kann ich erst im nächsten Jahr, voraussichtlich erst im 2. Quartal angehen. Dies betrifft die Facetten:

Modality
Description
ResourceClass? (da weiß ich nicht genau: eine so genannte Facette gibt es nicht; gemeint ist wohl: ResourceType? ??)
(2) In anderen Fällen sind die Infos da -- die VLOler müssten nur darauf zugreifen. Wenn sie dafür andere Concepts benötigen, müssten sie mir Bescheid schreiben.
availability: machen wir nicht explizit, ergibt sich aber aus unserer Lizenz (ich denke, da haben die VLOler ein Mapping)
license: steht in licence (DatCat?: http://www.isocat.org/datcat/DC-3800)
subject: steht in
textClass/classCode/@scheme='http://www.deutschestextarchiv.de/doku/klassifikation#dwds1main' und textClass/classCode/@scheme='http://www.deutschestextarchiv.de/doku/klassifikation#dwds1sub'. Hier ist es wichtig, dass die Werte berücksichtigt werden, weil im Element classCode mit anderen @scheme-Werten auch noch andere Infos stehen können, die wir nicht in der Subject-Facette sehen wollen (z.B. in textClass/classCode/@scheme='http://www.deutschestextarchiv.de/doku/klassifikation#DTACorpus' die Angabe, zu welchem Subkorpus innerhalb des DTA der Text gehört). Da fände ich es sehr schön, wenn das gelöst werden könnte.
format: Das wäre doch der Mimetype, oder? Der käme eigentlich aus dem CMDI-Header und dort von:
ResourceType/@mimetype='application/xml' oder nur ResourceType/@mimetype, wenn auch die Derivate der jeweiligen Dokumente mit angegeben werden sollen.

(3) Bleiben zwei Facetten, die schwierig sind:

keywords: Das haben wir gar nicht als Info zu unseren Daten. Da sehe ich auch nicht, wie wir das noch konsequent einpflegen sollen.
*accessInfo: Was genau ist damit gemeint? Und wo kommt es vor?

Viele Grüße
Christian

Am 28.10.2016 um 13:11 schrieb Durco, Matej:
Lieber Christian,

hier der Link zum Report für BBAW-Repo:
https://clarin.oeaw.ac.at/curate/#!ResultView/collection/Berlin_Brandenburg_Academy_of_Sciences_and_Humanities_BBAW_
Die Profiles bekommen tlw. penalty for not being public und tlw. bei der Facet coverage.
Es scheint allerdings hauptsächlich auf der Instanz-Ebene ein Problem mit der Facet-coverage geben. Manche der Facets kann man eher ignorieren, aber
folgende sollten wir uns wohl anschauen:
availability 0.0043
license 0.0043
accessInfo 0.0043
modality 0.0026
subject 0.0000
description 0.0102
resourceClass 0.0099
format 0.0026
keywords 0.0000

Mit „wir“ meine ich tatsächlich beide Seiten, weil es eben durchaus auch am vlo-mapping liegen kann, also müssen wir von beiden Seiten schauen, ob die Information tatsächlich in den Daten fehlt, oder ob der Fehler auf der VLO-Seite liegt.

Liebe Grüße
Matej

--
Christian Thomas
Wissenschaftlicher Mitarbeiter
Deutsches Textarchiv, www.deutschestextarchiv.de
CLARIN-D, www.clarin-d.net, www.deutschestextarchiv.de/clarin_kupro

Berlin-Brandenburgische Akademie der Wissenschaften
Jägerstr. 22/23
10117 Berlin
Raum: 154
Tel.: +49 (0)30 20370 523
E-Mail: Christian Thomas
--

Change History (1)

comment:1 Changed 6 years ago by matej.durco@oeaw.ac.at

Owner: changed from matej.durco@oeaw.ac.at to haaf@bbaw.de
Status: newassigned

Plan:
compare existing teiHEader profiles and try to come up with a common one that has good facet coverage, on the cost of deviating more from TEI (which we do anyhow.)
e.g. removing <p> elements

work on it:
BBAW + DK + ACDH-OEAW

Note: See TracTickets for help on using tickets.