Bericht vom Kolloquium


Günter Hotz Der Informationsbegriff aus der Sicht der Informatik 

Die Volltextdigitalisierung schafft neue Möglichkeiten im Umgang mit Wörterbüchern, Lexika, Indizes und Literatur. Die dazu notwendigen Verweisstrukturen müssen bei dem großen Umfang vieler Werke so angelegt werden, daß der Anwender nicht ungeduldig wird.

Der Vortrag stellt Konzept der Informatik dar, die in diesem Zusammenhang von Interesse sind. Es handelt sich dabei nicht nur um die Entwicklung von effizienten Zugriffsstrukturen, sondern auch um Ansätze zum Verständnis des Informationsbegriffes. Dieser Begriff läßt verschiedene Ausprägungen abhängig von der jeweiligen Interessenslage zu. Wir erläutern Maße für effizientes Suchen, für Datenkomprimierung, Verstehen und Ranking.

Gregory Crane The Perseus Project

The Perseus Project has been studying the interaction between technological infrastructure and the questions that humanists pose since it began initial development in 1987. Structured text has played a key role in Perseus we were committed to SGML when planning began in 1985-6 and our investment in structured text allowed us to migrate successfully from a CD-ROM to a Web based paradigm. While initial work focused on Greco-Roman antiquity, we have in the past several years began exploring the problems of other areas in the humanities, thus complementing the "depth first" initial probe with testbeds that represent a "breadth-second" approach. Our overall goal is to identify problems that are common to many disparate areas of the humanities and to isolate more domain specific problems. Our testbeds on London and its environs and on the US Civil War allow us to study geographically organized topics with rich, precise data and textbases in modern languages. We have much less precise data for the ancient testbeds for Greece, Rome and now Egypt, while these areas also raise the challenges of working with cultural heritage language that are no longer spoken. We hope thus to contribute to the design of an infrastructure for humanistic work that is more general and sustainable over the long run. Of particular interest to this conference will be initial attempts to define the costs and benefits for different levels of structured text.

Susan Hockey Digital Resources in the Humanities: Past, Present and Future

Until the last few years most digital resources in the humanities were created by individual scholars or research groups for specific research or teaching projects. Most often these resources were electronic texts and they were analysed by a concordance program or by some custom programs. These texts usually reflected the theoretical viewpoints of the scholars carrying out those projects and were often created and encoded in an idiosyncratic way. Some of these resources have found their way into archives or digital libraries, but issues of reusability really only came to the fore in the late 1980s, when it became generally accepted that a common encoding format would make it much easier for researchers to exchange electronic texts and thus reduce the cost of creating or reformatting resources.

In the 1990s the situation changed rapidly with the widespread use of the Internet and the efforts being made by many libraries to digitize their collections. Over the next years it seems likely that the world's major library collections will be converted into electronic format. In many ways it makes sense for digital resources to move into the library world, given the expectations of permanence of institutional structures and of information within libraries and archives, but it is perhaps disappointing to many of us in humanities computing that many of these digitization efforts have not take much account of the intellectual advances that we have made. Many libraries seem to see the end-product of their efforts as collections of digital images on the Internet, accessible via the catalogue, or, in a few cases, full-text transcriptions that tend to be treated as a kind of reference work with only a simple word or phrase search facility in the interface.

Big questions remain as to what the future digital library should look like and how it might be used. Is it feasible, or indeed necessary, to try to bring together a variety of advanced tools and theoretical perspectives into a general purpose system? Will we ever arrive at a global encoding scheme for digital humanities material that really satisfies all needs? What kind of metadata is appropriate for the humanities digital library and how can we use metadata to help make a seamless link between locating the item and analyzing it with software tools? How relevant are current research trends in computational linguistics for humanities resources? And will the move to digital scholarship result in completely new forms of publication?

Edward Vanhoutte Display or Argument: Markup and Digitization for Scholarly Editions

The theory and practice of electronic scholarly editing is in transition. Coming from the early use of the computer in concordance making, textual analysis, automatic collation, and stemma (re)construction, the techniques and tools to produce computer-assisted printed editions have been well established and have been proven successful. The advent of SGML (ISO 8879:1986) and the creation of a common format for text encoding and interchange by the Text Encoding Initiative (TEI) (and the recent XMLization of its DTD's), provided the Humanities scholar in general with a syntax and a methodology for representing text and the features within text, and the textual critic in particular with guidelines for the transcription of primary textual sources and the documentation of textual variation. The renewed interest for hypertext, the improvement of digital imaging technology, the success of the internet, the world wide use and development of graphical browser software, and the exponential growth of the speed of both computer processors and digital storage capacity, added a next logical step to the recent history of scholarly editing in the computer age: the distribution of scholarly editions by means of electronic publishing.

Since a couple of years now, we can experience the possibilities and practicalities of several (types of) electronic editions which demonstrate several theories of the text. A thorough critique of these editions in terms of utility and usability and a survey of the problems which exist with respect to electronic forms of textual criticism, scholarly editing and genetic criticism, can set the agenda for further research and development in the field of text encoding, software development, visualization techniques, and theories of electronic textual scholarship.

Taking the four projects in electronic editing in which I'm currently involved, as an illustrative case, I will meditate on the tension between emphasizing the importance of scholarly argument or the possibilities of display in the creation of several types of electronic editions. In doing this, I will comment on the policy and the current work of the young Centrum voor Teksteditie en Bronnenstudie (CTB-Centre for Textual Criticism and Document Studies) of the Royal Academy of Dutch Language and Literature (Gent, Belgium) which is mainly interested in the study of modern manuscript material.

David Seaman 'Build once, use many': an XML-encoded etext library for Searching, Aggregation, and multi-format output

A traditional library is a mechanism for the professional collecting, describing, and arranging of massive amounts of data in a logical and standardized manner; a successful digital library should be exactly the same a long-term repository of well-chosen, standards-based digital objects and metadata that both aggregate together and are malleable in output formats.

At the University of Virginia Library, we use our existing collection development and cataloging expertise to build our digital collections and to control the metadata attached to the digital objects; the Electronic Text Center uses SGML (and now XML) encoding to create an on-line archive of standards-based humanities content in multiple languages, including non-European languages such as Japanese, Chinese, and Apache. Since 1992, the Library has also been the "human interface" to humanities computing at UVA The Etext Center has a strong service, training, and classroom support component, and we are a real "walk-in" service with a mission to build and support user communities adept at the creation and use of digital resources.

By coupling the power of the traditional library disciplines with the data description and management skills of the digital librarian, we have created a collection of tens of thousands of digital books and hundreds of thousands of related images; some of these are created as part of dozens of library, faculty, and student projects; others are commercially-licensed products either bought as SGML/XML or converted locally; others still are created in partnership with publishers and scholars at many other locations.

One power of SGML and XML is its ability to aggregate new collections can be created by combining parts of other collections; cross-database searching is possible to open up new modes of inquiry; and data created for one reason (a faculty project) can be re-purposed to be part of a much larger collection of data (a cross-searchable digital library).

The use of stylesheets to control appearance means that the same piece of data may have a very different look, feel, and functionality for different audiances and in different locations within the aggregated library. XML and SGML especially tagsets such as the Text Encoding Initiative strongly encourage the text file itself to describe the nature of the item being encoded (structural markup) rather than its appearance on screen or on paper (descriptive markup). The layout information is stored separately, in one or more stylesheet files that can be added to the text.

For example, the text file itself may identify an item as an abstract to a journal article <abstract type="article">text goes here</abstract> - and a whole series of different stylesheets can display this in typographically different ways for different audiences or devices, or can suppress it from view, or can display only the abstracts (and not the accompanying articles). As we begin to mature as users and managers of large amounts of digital data with multiple audiences (student, professor, general public) we come more and more to appreciate and expect this degree of nimbleness in our datasets. We expect the digital objects to be able to be re-combined in various ways, and we expect the user to have multiple output choices from the same source file.

Until recently, our focus was largely web-centric (SGML converted to HTML on-the-fly), with occasional forays into CD-ROM delivery and printed coursepacks for the classroom. In the last two years, however, we have seen a remarkable shift from the dominance of the desktop computer and on-screen search and browse software (the web browser) to a first generation of "reading technologies" (the ebook) that are beginning to permit extended reading on screen, especially on our laptops and PocketPCs (indeed, most ebook formats disable printing, so their success rests entirely on their ability to promote on-screen reading). The global market seems to find this emerging technology persuasive; over three million Microsoft Reader ebook files were shipped in the last year from our site alone, in addition to massive web browser traffic, and an extended ebooks classroom test provided a close look at the academic uses of reading technologies in your pocket.

With Print on Demand, wireless, digital paper, and text-to-speech all about to join the first generation ebook devices and software, there has never been a better time to make good on the "build once/use many" promise of structural XML markup combined with consistent metadata and stylesheets (or a worse time to discover that your content is not as re-purposable as you thought).

[More information:]

Anne McDermott Encoding Johnson's Dictionary: Theoretical Issues and Technical Solutions

This paper will address issues relating to the encoding of Samuel Johnson's Dictionary. Johnson's Dictionary was first published in 1755 and the fourth edition, published in 1773, was substantially revised by Johnson. These two editions of the text were published in electronic form as a CD-ROM in 1996 by Cambridge University Press. The encoding scheme used for this CD-ROM edition was SGML in the implementation of the Text Encoding Initiative. The text was encoded for:

headword, headword collocation (if any), part of speech, etymology, definition, and illustrative quotation

together with:

author, title, and location of the work quoted.

Some entries had a sub-headword (typically a phrasal verb), sub-headword collocation, and sub-headword definition.

Cross-references were tagged and where Johnson indicates it, the area of usage (such as 'in architecture') was marked.

Johnson frequently gives a quotation from another dictionary or encyclopedia and lets that stand for the definition or the etymology, and these were dealt with by separate tags for definition/quotation or etymology quotation.

The most complex part of the encoding was dealing with embedded comments which indicated notes on spelling, pronunciation, usage, and grammar. It was frequently difficult to distinguish these and there were areas of overlap or ambiguity. Comments by Johnson which were impossible to categorize in any other way were tagged as authorial comment, though I tried to keep these to a minimum.

I will mention some of the problems we had in encoding the text for the CD-ROM, and I will also discuss the plans and preparations we are making for a new online edition of the text. We are working towards a full scholarly and critical edition of the text, and the next phase will incorporate all the sources of the illustrative quotations, together with some bibliographical material relating to the making of Johnson's Dictionary. I will discuss some of the technical issues which have arisen in relation to this next phase of the project.

Daniel Pitti Describing the Creators: Encoded Archival Context

Encoded Archival Context (EAC) is an ongoing initiative within the international archival community to design and implement a prototype standard based on Extensible Markup Language (XML) for encoding descriptions of record creators. The primary developers of this prototype standard are members in the international archival community. The description of individuals, families, and organizations that create records is an essential component of the documentary evidence of human activity. Identifying record creating entities, recording the names or designations used by and for them, describing their essential functions, activities, and characteristics, and the dates and places they were active is an essential component of the management of archival records. Creator description facilitates both access to and interpretation of records.

Description of creators is also essential in bibliographic systems, and in museum documentation, and thus EAC may be of interest to other cultural heritage communities as well. As custodians of the records upon which biographies and organization histories are based, archivists are well-placed to develop a standard that will assist in the fulfillment of their professional responsibilities, and at the same time lay the foundation for building international biographical and organization history reference resources.

Angelika Menne-Haritz Eine XML/EAD-Schnittstelle für MIDOSA

MIDOSA online is a software package. It is a set of software-tools for archival description and the production of online-finding aids in HTML or XML format including the conversion to EAD as well as other import or export functionalities. It was developed by the Archivschule Marburg together with the Archives Directorate of Baden-Würtemberg in a form of consortium called PARSIFAL (= PARtnerShip For Internet based Archival soLutions), which was joint by the Federal Archives a year ago. All modules are accessed through a uniform control-centre. The implementation thus requires minimal HTML or XML knowledge on the side of the archivists and the outcomes can be viewed with browsers in internal intranets or the world wide web.

EAD is a standard for a certain type of texts, the archival finding aids. It is broadly accepted and used by US repositories and more than 20.000 finding aids can be retrieved via the Primary Sources search engine of RLG. It has been adopted in the UK and translation initiatives are going on in France and Spain. However the two different approaches, starting either with data records about single descriptive units or with editing the text of a book show some problems for conversion efforts. The experiences with the conversion efforts for archival finding aids from MIDOSA to EAD will be described in the presentation.

C. Michael Sperberg-McQueen Geisteswissenschaften und Informatik. Zur aktuellen Situation und zu künftigen Aufgaben 

Why is it worthwhile is it in fact worthwhile? for humanists to bother about computers? Is humanities computing a 'discipline', as some argue, or is it just a collection of useful tricks borrowed from one discipline to be applied in another? After reviewing some of the arguments made on either side of this question, the talk will outline the essential features of the current situation in humanities computing, and suggest some of the most promising avenues for future research.

Warum lohnt es sich, sich als Geisteswissenschaftler mit Computern zu beschäftigen? Soll die geisteswissenschaftliche Informatik als Fach oder Disziplin gelten oder handelt es sich nur um eine Ansammlung von Tricks, die wir im Rahmen unserer Arbeit anwenden können? Der Vortragende wird einige der Argumente, die jede Seite vorbringt, kurz zusammenfassen, um dann zu versuchen, die wesentlichen Züge der aktuellen Situation und einige vielversprechende Themen für die künftige Arbeit zu beschreiben.

Jörg Asmussen Zur geplanten Retrodigitalisierung des Ordbog over det danske Sprog - Konzeption, Vorgehensweise, Perspektiven.

Zu den Aufgaben der Gesellschaft für dänische Sprache und Literatur, Det Danske Sprog- og Litteraturselskab, DSL, zählt u.a. die Erarbeitung wissenschaftlich fundierter Wörterbücher des Dänischen. Von diesen ist das 28-bändige Ordbog over det danske Sprog (Wörterbuch der dänischen Sprache, ODS) bislang das umfassendste Wörterbuch des Dänischen. Das ODS ist im Zeitraum zwischen 1918 und 1955 erschienen; seine Zielsetzung ist die ausführliche und umfassende Beschreibung des dänischen Wortschatzes des Zeitraums von 1700 bis in die erste Hälfte des zwanzigsten Jahrhunderts. Es ist ein langjähriger Wunsch der DSL, das ODS zu retrodigitalisieren, und da sich gegenwärtig Möglichkeiten zur Finanzierung eines derartigen Projektes abzeichnen, nehmen Pläne für eine solche Digitalisierung augenblicklich konkretere Formen an.

Im Vortrag wird zunächst das ODS kurz vorgestellt und seine Konzeption und Struktur besprochen. Anhand eines Beispielartikels soll der Versuch unternommen werden, einen generellen Überblick über die Artikelstruktur zu geben, und es werden hierbei einige zentrale Problemstellungen und mögliche Lösungswege erörtert, die sich bei einer Digitalisierung ergeben. Der Schwerpunkt wird allerdings auf den Perspektiven einer Digitalisierung liegen. Häufig wird bei der Begründung von Digitalisierungsprojekten darauf hingewiesen, daß sowohl Recherchemöglichkeiten als auch Recherchegeschwindigkeit retrodigitalisierter Nachschlagewerke besser sind als bei traditionellen Buchversionen. Ein weiteres Argument ist der leichtere Zugang, da digitalisierte Nachschlagewerke eben grundlegend auch internetfähig sind und somit zumindest potentiell einer größeren Gruppe Interessierter zugänglich werden als eine vielbändige Buchversion.

Sollen diese beiden Vorteile allerdings voll ausgeschöpft werden, muß auch eine Reihe von besonderen Anforderungen an ein digitales Nachschlagewerk gestellt werden: in erster Linie sollte die Struktur des Werkes weitgehend konsistent sein, was in aller Regel bei größeren Wörterbuchwerken, die typisch über viele Jahrzehnte hinweg redigiert wurden, nicht unmittelbar gegeben ist. Weiter sollte aber auch die redaktionell-inhaltliche Konzeption konsistent sein. Anhand eines konkreten Beispiels soll insbesondere das Problem des häufigen Mangels an redaktionell-inhaltlicher Konsistenz bei der Bedeutungsdefinition erörtert werden sowie mögliche Ansätze zur Lösung dieses Problems.

Eveline Wandl-Vogt Digitale Volltexte als Arbeitsbehelf für die Dialektlexikographie am Beispiel des "Wörterbuchs der bairischen Mundarten in Österreich" (WBÖ)

Das "Wörterbuch der bairischen Mundarten in Österreich (WBÖ)" basiert auf einer umfangreichen Sammlung (ca. 3,6 Mio. Unikate), die seit 1913 zusammengetragen worden ist. Sich nicht nur als sprachwissenschaftliches, sondern auch als historisches und volkskundliches Informationsmedium verstehend, wurden auch entsprechende literarische Quellen exzerpiert, ebenso alle wesentlichen in Betracht kommenden regionalen Wörterbücher und Disserta­tionen. Schätzungsweise 10% des Gesamtmaterials sind auf Textzitate unterschiedlichster Art zurückzu­führen. Die zum Teil ohne Seitenangabe bzw. mit Seitenangabe einer nicht mehr zugänglichen Ausgabe oder nur über Glossare exzerpierten Einzelbelege müssen vom Lexikographen / von der Lexikographin in mühevoller Kleinarbeit auf das Vollzitat rückerschlossen, ausgewählt, datiert und lokalisiert werden. Diese Arbeiten sind zeitaufwendig und fehleranfällig.

1995 wurde daher unter der Leitung von Ingeborg Geyer mit der Errichtung einer Textdatenbank begonnen. Diese ist eine Subdatenbank zur "Datenbank der bairischen Mundarten in Österreich (DBÖ)", einer seit 1993 im Aufbau befindlichen Belegdatenbank. Ziel der Textdatenbank ist es, die wesentlichen im WBÖ zitierten Quellen sowie wichtige Sekundärliteratur für die Abfrage in den elektronischen Daten zur Verfügung zu stellen. Derzeit sind rund 100 Texte digitalisiert, etwa 2/3 davon befinden sich in Bearbeitung bzw. sind bearbeitet und für die Artikelarbeit zugänglich.

Die Aufbereitung der Texte geschieht institutsintern. Die Texte werden digitalisiert (PROLECTOR) und konvertiert (TUSTEP). In einem weiteren Arbeitsschritt werden sie von studentischen Hilfskräften bearbeitet (Überprüfung auf Fehler, Einfügen von Seitennummern und Zitation, Lokalisierung und Datierung etc.). Abschließend werden sie mittels einer 1998 entwickelten TUSTEP-Programmsequenz in einzelne Abschnitte (meist Sätze) zerlegt. Seit 1999 steht eine TUSTEP-Programmsequenz zur Verfügung, mittels derer Einzelzitate aus den entsprechend aufbereiteten Quellen übernommen werden können. Diese Sequenz ist über eine Mausleiste direkt vom Arbeitsbildschirm des Artikelschreibers / der Artikelschreiberin startbar. Der/die Benutzer/in gibt nur die zu untersuchende Quelldatei ein und das zu suchende Stichwort. Er/Sie erhält eine Ergebnisdatei, die Vollzitate, die das gesuchte Stichwort enthalten, auflistet. Auf diese Weise wird die Artikelarbeit erheblich beschleunigt und eine einheitliche Zitation und Lokalisierung gewährleistet.

Wolfgang Schibel, Heinz Kredel Kodierung und Präsentation neulateinischer Dichtung im Text-Bild-Corpus CAMENA auf der Basis von TEI-XML

Das von der DFG geförderte Projekt CAMENA (= Corpus Automatum Manhemiense Electorum Neolatinitatis Auctorum) verfolgt das Ziel, eine repräsentative Auswahl der lateinischen Dichtung deutscher Autoren im Umfang von ca. 50.000 Seiten online zur Verfügung zu stellen. Wir werden folgende Arbeitsschritte erläutern:

1. Auswahl der Primärtexte: Da bisher nur Ansätze zu einem Kanon der neulateinischen Literatur existieren und eine kritische Recensio alter und, sofern vorhanden, neuerer Ausgaben zumeist noch aussteht, war hier philologische Vorarbeit zu leisten.

2. Wiedergabe der Texte: Um die Texte in ihrer historisch wirksamen Form zu dokumentieren, werden Werkausgaben des 16. bis 18. Jahrhunderts durch Seitenabbildung (Farbscan) reproduziert. Zugleich stellt CAMENA den Volltext in standardisierter Version bereit, um das Lesen, Durchsuchen und Weiterverarbeiten zu erleichtern. Diese 'Verbundedition' (compound edition) überwindet das Dilemma des modernen Herausgebers, entweder der Quelle oder aber dem heutigen Leser (oder mit einem Kompromiß beiden) nicht gerecht zu werden.

3. Der Codierung liegt eine für CAMENA definierte Teilmenge von 50 TEI Lite tags zugrunde. Mit ihnen werden vor allem strukturelle und semantische Merkmale des Textes sowie editorische Eingriffe hervorgehoben, weniger die im Faksimilebild sichtbaren Phänomene wie Typographie und Layout der Vorlage. Weil die Texte in erster Linie für das Web gedacht sind, werden sie dem XML-Format entsprechend aufbereitet.

4. Die manuelle Erfassung lateinischer Texte nach Ausgaben des 16. bis 18. Jahrhunderts steht vor besonderen Schwierigkeiten: Abbreviaturen und Ligaturen, fehlende Zwischenräume zwischen Buchstaben (besonders in der Antiquakursive) und Wörtern, inkonsequente Setzung von Akzenten und Satzzeichen, fluktuierende (Ortho)graphie. Daher haben wir Transkription, Standardisierung und Codierung in einem Durchgang durch Lateinstudierende (mit Werkvertrag) durchführen lassen. Da der Arbeitsfortschritt in diesem Verfahren zu langsam ist, wählen wir jetzt ein gestuftes Vorgehen: Einfacherfassung durch Dienstleister; Rechtschreibkorrektur und partielle Codierung mit Programmen, die uns das Perseus Project zur Verfügung stellt; Kontrolle, Korrektur und Ergänzung durch Latinisten der CAMENA-Redaktion.

5. Document Management System: Im Rahmen der von uns seit 1996 in MATEO (Mannheimer Texte Online) herausgegebenen Reihe von Faksimilereproduktionen alter Drucke wurde CAMENA als Sammlung mit eigenem Webdesign etabliert. Von einer Randleiste mit Autorennamen gelangt man durch Mausklick zur Titelanzeige der reproduzierten Werkausgabe(n) eines Dichters und weiter zu einer Gliederung der jeweiligen Ausgabe in Portionen von 50 bis 100 Seiten. Diese werden als Vorschautableaus von Miniaturbildern sichtbar. Ein Klick auf das thumbnail image ruft das Vollbild der Seite auf. Reduziert man das Fenster auf die Breite einer Seite, so kann man daneben den entsprechenden Abschnitt des Volltextes ins Bild bringen. Der Volltext wird derzeit mitsamt seiner Markierung entsprechend TEI Lite und XML im ASCII-Format dargeboten. Darüber hinaus wird nach einem von uns entwickelten Konvertierungsverfahren ein HTML-Text bereitgestellt, der Verknüpfungen zu den Bildseiten enthält und durch ein automatisch generiertes Inhaltsverzeichnis ergänzt wird.

6. Vorgesehener Ausbau des Angebots: Um dem Leser von heute den Zugang zu dieser für Gelehrte einer vergangenen Epoche geschriebenen Literatur zu erleichtern, soll in Zusammenarbeit mit dem Perseus Project ein reading environment aufgebaut werden, das als virtueller Kommentar der Primärtexte dienen kann. Neben modernen Hilfsmitteln wie dem lateinisch-englischen Wörterbuch von Lewis & Short, das in der Perseus Digital Library bereits die einzelne Wortform mit Lemma und Artikel des Wörterbuchs verknüpft und so auch die klassischen Parallelstellen erschließt, und der Cambridge Modern History, deren vor knapp 100 Jahren erschienene Bearbeitung 5000 Seiten faktenreicher Darstellung der europäischen Geschichte des 15. bis 18. Jahrhunderts bietet, werden auch frühneuzeitliche Handbücher und Repertorien digitalisiert, die den versunkenen Wissenshorizont der Autoren und ihrer zeitgenössischen Leser dokumentieren.

7. Vorhaben, für die CAMENA Vorarbeit leistet: Ein digitales Bildarchiv ausgewählter alter Editionen, das die Textgeschichte der Werke dokumentiert; eine Aufarbeitung weiterer nationaler Segmente der neulateinischen Dichtung sowie der Prosaliteratur; eine Volltextdatenbank der gesamten lateinischen Literatur vom Zwölftafelgesetz bis heute; ein neulateinisches Wörterbuch; eine offene Werkstatt der neulateinischen Philologie, die Miszellen und größere Beiträge, deren konventionelle Publikation zu aufwendig wäre, aufnimmt; neue Textausgaben mit Übersetzung und Kommentar; multimediale Aufbereitung ausgewählter Texte mit Ton und Illustration zu didaktischen Zwecken.

Markus Brantl, Karl Märker SGML/XML-Kodierung von Volltexten aus der Konversion von Katalogen und Nachweisinstrumenten

Am Beispiel zweier verwandter Projekte werden Überlegungen und Vorgehensweise für den Einsatz von XML-Kodierungen bei der Retrokonversion von Nachweisinstrumenten dargestellt. Es handelt sich zum einen um das in Kooperation mit der Mainzer Akademie der Wissenschaften (Regestenkommission) begonnene Projekt "Regesta Imperii Online", andererseits die Retrokonversion ausgewählter älterer mittelalterlicher Handschriftenkataloge im Rahmen des Projekts Handschriftendatenbank.

Ausgehend von einer Analyse der sehr unterschiedlichen gedruckten Vorlagen in beiden Projekten (bei den Regesten klar strukturierte, wenige Informationseinheiten gegenüber den in der Erschließungstiefe und Anordnung sehr inhomogenen Beschreibungen in den Katalogen) werden grundlegende Gesichtspunkte zur Auswahl von DTDs angesprochen. Unter diesem Aspekt muß sowohl der weitere Verwendungszweck der Daten als auch die Kooperation mit anderen Projekten (Datentausch, gemeinsame Suche) berücksichtigt werden. Bei der Gewinnung der zu kodierenden Information ist der Zeit- und Personalaufwand im Verhältnis zum Nutzen für die Zielgruppe und deren Fragestellungen gegeneinander abzuwägen.

Insgesamt erscheint die Nutzung von XML als selbstbeschreibender Auszeichnungssprache mit einer dem besonderen Projekt möglichst gut angepaßten aus einer allgemein verfügbaren Vorlage abgeleiteteten Spezial-DTD als die geeignete Lösung.

Bernd Füllner, Johannes Fournier HHP - Das Heinrich Heine-Portal, ein integriertes Informationssystem

Das integrierte Informationssystem Heinrich Heine-Portal (HHP) soll wesentliche Grundlagen für die wissenschaftliche Erforschung der deutschen und internationalen Literaturverhältnisse in der ersten Hälfte des 19. Jahrhunderts anbieten.

Die Textgrundlage für das Digitalisierungsprojekt bilden zum einen die Bände der Historisch-kritischen Heine-Ausgabe, also die Düsseldorfer Ausgabe, die von 1973 bis 1997 erschienen, zum anderen die Bände des gleichwohl noch erheblich zu überarbeitenden Briefwechsels Heines, erschienen von 1970 bis 1984 im Rahmen der in Weimar erscheinenden Heine-Säkularausgabe (HSA Bde. 2027 u. 20-27R). Ergänzt werden soll die digitale Darbietung der Werke und des Briefwechsels durch vielfältige Verknüpfungen mit zu digitalisierenden Werk- und Briefhandschriften, Bildmaterialien, Quellen und Büchern aus der Privatbibliothek Heines, die sich im Heinrich-Heine-Institut der Landeshauptstadt Düsseldorf befinden. Schließlich sollen Heines Werke auf der Grundlage der für die Digitalisierung erzeugten SGML/XML-Daten neu gesetzt werden, für diese Umsetzung konnte der Zweitausendeins-Verlag gewonnen werden.

Das Kernstück des HHP ist zweifelsohne die Vereinigung der beiden Heine-Ausgaben. Dabei gilt es, die vielfältigen Beziehungen zwischen den verschiedenen Texten sorgfältig herauszuarbeiten, um auch im elektronischen Medium den ganzen Reichtum zu erschließen, den die jahrelange Arbeit der Editoren, Textkritiker und Kommentatoren zutage gefördert hat. Die Eigenschaften der bisher genutzten philologischen Möglichkeiten kritischer Ausgaben sollen in dem neuen Konzept eines Heine-Portals gebündelt werden. Die elektronische Publikation zielt wie jede heutige digitale Publikation auf zusätzliche Möglichkeiten, über Datenbanken und komfortable Abfragemöglichkeiten, neue Informationen aus dem vorhandenen Text zu erschließen, und so ein wissenschaftlichen Ansprüchen genügendes Kompendium der Heine-Zeit zu schaffen, das der Forschung neue Impulse verleiht.

Ingrid Schmidt, Carolin Müller  Die Große Kommentierte Frankfurter Ausgabe der Werke Thomas Manns. Ein innovatives verlegerisches Konzept

Der Beitrag behandelt konzeptionelle und methodische Fragen des Thomas-Mann-Projekts. Im Rahmen dieses Projekts entsteht die neue Referenzausgabe des Gesamtwerks von Thomas Mann, die für die Publikation in zwei Medien aufbereitet wird: als Buch und als elektronische Ausgabe. Die Basis dafür bildet ein Informationspool, in dem die Texte XML-basiert vorgehalten und durch ein semantisches Netz verknüpft werden. Es wird sowohl die Architektur des Systems skizziert, als auch die dahinterstehenden technischen und konzeptionellen Überlegungen. Dabei beschreitet gerade die elektronische Version neue Wege. Sie ist als Arbeitswerkzeug für Literaturwissenschaftler konzipiert, das völlig neuartige Zugriffsmöglichkeiten auf das Werk Thomas Manns ermöglicht.


© Universität Mannheim, 2001.

Heinz Kredel
Last modified: Thu Oct 18 09:24:53 MEST 2001