Word-Konverter

Word-Konverter für WordPerfect

Umwandlung tausender Dokumente nach Word 2007, Aufbereitung derInhalte und Anpassung an die neue CI

eWorks hat im Auftrag eines großen, deutschen Dienstleitungsunternehmens eine Software zur Batch-Konvertierung von WordPerfect 6-Dokumenten nach Microsoft Word 2007 entwickelt.

Der Auftraggeber besaß zum Zeitpunkt der Auftragserteilung einen Bestand von mehr als 4.000 WordPerfect-Dokumenten, die es nach Word 2007 zu konvertieren galt. Eine manuelle Konvertierung per Hand war aus Zeit- und Budgetgründen ausgeschlossen, da diese bei ca. 8 h pro Dokument gut 20 Personenjahre in Anspruch genommen hätte. Erschwerend kam hinzu, dass es sich um sicherheitsrelevante Dokumente handelte, die nach der Konvertierung zeit- und kostenintensiv von einem unabhängigen Gutachter hätten verifiziert werden müssen. Als Lösungsansatz wurde eWorks mit der Konzeption und Entwicklung einer Software zur automatischen Konvertierung von WordPerfect nach MS Word beauftragt.

Seit Entstehung der ersten WordPerfect-Dokumente hatte sich nicht nur die Technik, sondern auch das Corporate Design (CD) des Auftraggebers geändert, sodass zusätzlich zur Konvertierung eine Layout-Anpassung nötig war. Der Dokumenten-Konverter muss daher während des Konvertierungsvorganges auch das optische Erscheinungsbild der Dokumente modernisieren. Um dies zu erreichen, tauscht der entwickelte Konverter die Dokumentvorlage der Dokumente aus, ersetzt lokale Formate durch Formatvorlagen und fügt neue Deckblätter in die Zieldokumente ein. Auf diese Weise erneuert der Dokumenten-Konverter das Layout der Jahrzehnte alten Dokumente, und verleiht ihnen vollautomatisch (wieder) Konformität mit der Corporate Identity (CI).

Tabellen-KonvertierungAls besondere Herausforderung erwies sich, die Dokumente nicht nur technisch aus dem einen in das andere Format zu wandeln, sondern auch inhaltlich zu modernisieren. Diese Anforderung resultierte daraus, dass die Quelldokumente bis in die 70er Jahre zurückdatierten, teilweise noch "Schreibcomputern" entstammten. Der zu entwickelnde Dokumenten-Konverter musste die Aufgabe bewältigen, diese bis zu 35 Jahre alten "Schreibmaschinendokumente" in moderne Textverarbeitungsdokumente umzuwandeln, indem er die Quelldokumente analysiert und alle "Schreibmaschinenformatierungen" durch MS Word-Formatierungen ersetzt. Beispielsweise indem unzählige Leerzeichen und Tabulatoren entfernt werden und durch "echte" Absatzformatierungen ersetzt werden wie z. B. Einrückung, Rechtsbündigkeit oder Zentrierung. Durch Umstellung von nicht-proportionaler Schreibmaschinenschrift ("Courier") auf Proportionalschrift ("Arial" oder "Times New Roman") verrutschen Spalten bis zur Unkenntlichkeit, die der Konverter identifizieren und durch Tabulatoren ersetzen muss. Die größte Herausforderung bestand darin, "Schreibmaschinentabellen" bestehend aus Strichen, Leerzeichen, Tabulatoren und Zeilenschaltungen zu erkennen ("|---|---|------|"), deren Inhalte, Zell-Strukturen, verbundene Zellen, Rahmenlinien und andere Formatierungen zu analysieren und sie in äquivalente MS Word-Tabellen umzuwandeln. Der entwickelte Dokumenten-Konverter wird diesen Anforderungen durch zahlreiche Algorithmen und Heuristiken gerecht und bringt vollautomatisch die bis zu 35 Jahre alten Dokumente auf Höhe der Zeit.

Um den manuellen Arbeitszeitbedarf zu minimieren bzw. den Automatisierungsgrad zu maximieren, galt es, eine maximale Konvertierungsqualität anzustreben. Sowohl der Zeitbedarf für die manuelle Nacharbeit der Ergebnisdokumente als auch für deren Validierung gegen die Quelldokumente mussten kleinstmöglich gehalten werden. Zur Erreichung dieser Ziele wurde eine "elektronische Qualitätssicherung" (eQS) entwickelt und dem Konvertierungsprozess nachgelagert. Während der eQS wird das konvertierte Ergebnisdokument über 70 verschiedenen Tests unterzogen, die die Struktur, Inhalt und Erscheinungsbild des Zieldokumentes gegen ein ausgefeiltes Regelwerk prüfen, dabei ein Testprotokoll schreiben und eine visuelle Grobeinschätzung ausgeben (grün, gelb, rot). Der Anwender des Dokumenten-Konverters erhält somit unmittelbar nach Abschluss des Konvertierungsprozesses eine Einschätzung der erzielten Konvertierungsqualität.

eWorks hat einen Dokumenten-Konverter für die Einzel- oder Stapelverarbeitung konzipiert und als Microsoft .NET-Lösung entwickelt. Am Ende des Entwicklungsprozesses standen 46 verschiedene Konvertierungsfunktionen, rund 24.000 Zeilen Quellcode und ein Arbeitsaufwand von 1-2 Personenjahren. Der entwickelte Konverter befindet sich seit der Übergabe an den Auftraggeber im täglichen Einsatz.

Verwendete Technologien

.NET
C#
Microsoft Office
VBA
XML

Ähnliche Referenzen