Mojibake bei alten Word 5.0 und 6.0-Dokumenten

Übersetzungen, Computerprobleme, Chinesische Zeichen, Studium in China, Sinologie usw.
Antworten
庄海天
Neuling
Beiträge: 4
Registriert: 14.01.2016, 15:24

Mojibake bei alten Word 5.0 und 6.0-Dokumenten

Beitrag von 庄海天 »

Hallo ihr Lieben,

ich habe ein recht ausgefallenes Problem wie ich meine. Ich wende mich an dieses Forum, da ich mir vorstellen kann, dass jemand hier schon etwas ähnliches passiert ist.

Ich habe beim Retten von 300 Disketten ungefähr 2.000 Worddokumente gesichert, die altes deutschsprachiges sinologisches Forschungsmaterial beinhalten - ungefähr aus dem Zeitraum späte 1980er bis frühe 2000er-Jahre. Die Dateien werden in Word (Professional Premium Plus 2013) zwar korrekt geöffnet; die Formatierung ist größtenteils erhalten, die in den deutschen Texten an einigen Stellen erwähnten chinesische Zeichen hingegen nicht. Diese werden in Word als wüste Symbolansammlung dargestellt: https://en.wikipedia.org/wiki/Mojibake - wie bspw. hier in diesem Screenshot dargestellt: https://www.picflash.org/viewer.php?img ... WYZAKO.png.

Ich habe die Worddateien einfach mal in einigen Texteditoren geöffnet und dabei neben Verweise auf DOT-Dateien recht kürmelige Hinweise auf DFV-Dateien gefunden (diese Druckformatvorlagen aus Word 5.0 als Word noch standardmäßig in TXT-Dateien gespeichert hat: https://books.google.de/books?id=L4J9Bw ... #v=onepage). Offensichtlich hat der Großteil der Dateien schon einen Rettungs- und Konvertierungsdurchgang vor etlichen Jahren durchgemacht - das macht das gesamte Unterfangen nicht unbedingt einfacher.

Mittels https://nlp.fi.muni.cz/projects/chared/ war es mir dann möglich endlich die Zeichen wie gewünscht darzustellen; wenn ich dort eine TXT (ISO 8859-1) mit ausschließlich den fehlkodierten Zeichen hochlade und "Chinese traditional" wähle, dann endlich werden mir die Zeichen korrekt dargestellt:

Aus...

Code: Alles auswählen

¬O «H ±¡ ¥G
«D §^ ÄÒ ¤§ ¤h ¥G
¤Ò «D ¦Ó øA ¥G
¤Ò ¤µ ¤§ ºq ªÌ ¨ä ½Ö ¥G
§ ¨ä ¤H ¤§ «æ ¤] ¥G
§^ ¸o ¤] ¥G «v
wird dann endlich folgendes:

Code: Alles auswählen

是 信 情 乎 非 吾 黨 之 士 乎 夫 非 而 讎 乎
夫 今 之 歌 者 其 誰 乎 禮 其 人 之 急 也 乎
吾 罪 也 乎 哉
Also sind hier bei mir DOC-Dateien mit stellenweise Mojibake im mehrheitlich Word-Standard-Deutschen Text und targetencodierten Big5 chinesischen Langzeichen dazwischen (oder?). Kann man die fehlerhaft kodierten Zeichen überhaupt irgendwie ohne den deutschen Text bearbeiten? Ist jemandem ein derartiges Problem schonmal untergekommen?

Lieben Gruß, 庄海天.

PS: Ich habe einen ähnlichen Thread ursprünglich drüben bei ngb.to erstellt: https://ngb.to/threads/20701. Ich habe aber das Gefühl, dass sich hier mehr Menschen finden, die ein solches Problem schonmal gehabt haben können.
tigerprawn
VIP
VIP
Beiträge: 2046
Registriert: 07.02.2011, 11:54
Danksagung erhalten: 2 Mal

Re: Mojibake bei alten Word 5.0 und 6.0-Dokumenten

Beitrag von tigerprawn »

Hast Du vielleicht auch den PC auf dem die Dateien erstellt wurden gesichert?
庄海天
Neuling
Beiträge: 4
Registriert: 14.01.2016, 15:24

Re: Mojibake bei alten Word 5.0 und 6.0-Dokumenten

Beitrag von 庄海天 »

Oh, das hatte ich vergessen zu erwähnen - Verzeihung. Ich habe die Dateien in Microsoft Word 6.0 in einer Win95-VM, Office 95 und Office 2000 in einer Win2000-VM und diverse LibreOffice-Versionen in einer Ubuntu 11.10-VM getestet. Die Zeichen werden überall gleich dargestellt.

Der PC, auf dem die Dateien erstellt wurden, existiert nicht mehr.
Benutzeravatar
retroplacebo
Forumsprofi
Forumsprofi
Beiträge: 210
Registriert: 16.07.2013, 12:31

Re: Mojibake bei alten Word 5.0 und 6.0-Dokumenten

Beitrag von retroplacebo »

Lade doch mal ein Beispieldokument irgendwo hoch und verlinke es hier. Dann können wir damit ein wenig experimentieren.
庄海天
Neuling
Beiträge: 4
Registriert: 14.01.2016, 15:24

Re: Mojibake bei alten Word 5.0 und 6.0-Dokumenten

Beitrag von 庄海天 »

Das ist ein kleines Problem, da ich nicht Urheber der Daten bin (und dieser auch schon einige Jahre verstorben ist). Alle unterliegen also eigentlich dem Urheberschutz. Ich stelle dennoch mal die erste Seite eines Dokuments in meine Dropbox, von dem ohnehin die erste Seite kostenfrei bei degruyter.com einsehbar ist (http://www.degruyter.com/dg/viewarticle ... .2.211.xml). Mit diesem Tool ist es möglich, die fehlenkodierten Zeichen zu retten: http://www.mandarintools.com/email.html - die Frage ist jetzt nur, wie man das bei 3.000 Dokumente automatisiert und mit möglichst wenig Stress hinbekommt :D.

Hier die erste Seite von dem Text: https://dl.dropboxusercontent.com/u/450 ... ichter.DOC
庄海天
Neuling
Beiträge: 4
Registriert: 14.01.2016, 15:24

Re: Mojibake bei alten Word 5.0 und 6.0-Dokumenten

Beitrag von 庄海天 »

retroplacebo, ich habe dankend deine PN erhalten - kann aber, weil ich hier noch so neu bin - da leider nicht drauf antworten. Magst du mir einfach per PN deine Mailadresse schicken, dann kann ich dir das komplette Dokument zukommen lassen?

Liebsten Dank!
Benutzeravatar
de guo xiong
VIP
VIP
Beiträge: 3053
Registriert: 03.01.2008, 20:09
Wohnort: Beijing
Hat sich bedankt: 11 Mal
Danksagung erhalten: 7 Mal

Re: Mojibake bei alten Word 5.0 und 6.0-Dokumenten

Beitrag von de guo xiong »

庄海天 hat geschrieben:retroplacebo, ich habe dankend deine PN erhalten - kann aber, weil ich hier noch so neu bin - da leider nicht drauf antworten. Magst du mir einfach per PN deine Mailadresse schicken, dann kann ich dir das komplette Dokument zukommen lassen?

Liebsten Dank!
Oder ... du schreibst noch einen Beitrag, dann hast Du 5 und kannst PNs beantworten/schreiben.

de guo xiong
To the world you maybe one person,
but to one you maybe the world!!
Benutzeravatar
Laogai
Titan
Titan
Beiträge: 17492
Registriert: 05.08.2007, 22:36
Wohnort: N52 29.217 E13 25.482 附近
Danksagung erhalten: 132 Mal

Re: Mojibake bei alten Word 5.0 und 6.0-Dokumenten

Beitrag von Laogai »

庄海天 hat geschrieben:Mit diesem Tool ist es möglich, die fehlenkodierten Zeichen zu retten: http://www.mandarintools.com/email.html
Warum bin ich nicht darauf gekommen :?: :(
庄海天 hat geschrieben:die Frage ist jetzt nur, wie man das bei 3.000 Dokumente automatisiert und mit möglichst wenig Stress hinbekommt
Ich nehme an retroplacebo, dieser Hacker vor dem Herren, hat dir angeboten ein kleines Script in Perl zu schreiben. Denn ein solches werkelt im Hintergrund für Mandarintools.

PS: retroplacebo, schalte mal deine Birne wieder ein! Ist sonst so dunkel hier 8)
Laogai <=> 老盖, Ex-Blogwart
Konfuzius sagt: "Just smile and wave, boys. Smile and wave."
天不怕地不怕就怕洋鬼子开口说中国话!
Antworten

Wer ist online?

Mitglieder in diesem Forum: 0 Mitglieder und 1 Gast