You're not registered yet. Click here to register. Credits 
You can register here for free.
This topic has 21 replies
and has been read 678 times
 De verbis in indicem latin.dic referendis
pages 1 | 2
Bussinchen Online




Posts: 2

Fri Jul 22, 2011 5:20 pm
Wie wir mit den verschiedenen Listen umgehen... Quote · reply

Als Ausgangsbasis für unsere Arbeit am zukünftigen latin.dic für Scrabble3D stehen uns verschiedene frei im Internet verfügbare Wörterlisten zur Verfügung.

Diese sind:

LISTALL, die Wörterliste von William Whitakers Programm WORDS (mehr Info)

Spellchecker-Listen la.dic und la.aff (OpenOffice Spell-Checking Wörterbuch: "Latin Dictionary for Thunderbird" (mehr Info)

Diogenes-Listen latin-lemmata.txt und latin-analyses.txt (mehr Info)


--------------------------------------------

Als Referenzwörterbuch verwenden wir:

Charlton T. Lewis; Charles Short [1879], A Latin Dictionary

• Charlton T. Lewis; Charles Short [1879], A Latin Dictionary, Online-Fassung (mehr Info)

• Charlton T. Lewis; Charles Short [1879], A Latin Dictionary, Programm (mehr Info)

• Lewis & Short Latin Dictionary.pdf (410,576 KB), Faksimile, (mehr Info)





Dieser Kopfbeitrag #1 hat die URL http://www.scrabble3d.info/t1045f179-Wie-wir-mit-den-verschiedenen-Listen-umgehen-1.html#msg9867039




I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble


Bussinchen Online




Posts: 2

Fri Jul 22, 2011 2:42 pm
#2 Dic-Kategorien für spät- und neulateinische Wörter einrichten Quote · reply

Zitat von linhart auf Dreibuchstabige lateinische Wörter
Das mit der eigenen Kategorie ist grundsätzlich eine gute Idee, aber schwer zu realisieren. Ich kann ja nicht alle Wörter der Liste einzeln durchgehen. Das mache ich nur bei den 2- und 3-buchstabigen, und da zeigt sich eben, dass die Wordchecker-Listen anscheinend auch spät- und neulateinische Wörter enthalten, und das ist der Hauptgrund, warum ich sie drinnen lassen will. Sie sind aber in der Liste nicht markiert, sodass ein Aussortieren ein nicht vertretbarer Aufwand wäre.


Seufz. Ich verstehe. Immer wieder tun sich solche Hürden auf, die wir nicht überwinden können, es sei denn in jahrzehntelanger, und von daher unzumutbarer Kleinarbeit...

Separate Kategorien nur für ein paar 2- bis 3-buchstabige Wörter anzulegen, ist natürlich Nonsens.

Ich hatte geglaubt, solche spät- und neulateinischen Wörter ließen sich mithilfe eines Vergleichs der WORDS-Liste LISTALL von Whitaker (inkl. Funktion des perioden-Taggings, siehe unten in Uvius' Mail) und der Diogenes-Listen latin-lemmata.txt bzw. latin-analysis.txt ausfindig machen.


Ich erinnere daran, was Uvius mir in einer seiner Mails geschrieben hatte:

Zitat von Uvius in einer seiner Mails an Bussinchen
Die in Diogenes enhaltenen, letztlich auf das Programm Morpheus aus dem
Perseus-Umfeld zurückgehenden belegten Wortformen sind

1. unvollständig (z.B. fehlt laudabamini und viele andere Formen, weil
es im Korpus einfach nicht vorkommt),

2. aus verschiedensten Epochen und Stilen zusammengemischt (nur die 100
Jahre um Augustus entsprechen in etwa unserer normativen Schulgrammatik),

3. teilweise fehlerhaft.

Ich würde Ihnen daher als pragmatischen Ansatz empfehlen, eine
Untermenge des Lexikons zu verwenden. Verschiedene Wege kommen mir in
den Sinn:

- Einschränken auf klassische Lemmata, beispielsweise durch Vergleich
mit anderen Wortlisten. Wenn Sie von Whitaker ausgehen, könnten Sie ja
das Perioden-Tagging dazu nutzen.

- Verzicht auf belegte (damit ja auch teilweise problematische)
Wortformen und Erstellung einer eigenen Wortformenliste. Das ist
machbar, der Morpheus-Code beispielsweise ist frei über Perseus
verfügbar und bei einiger Einarbeitung auch nutzbar, wie mir die Arbeit
eines Kollegen gezeigt hat. Ich selbst bin in dieser Materie noch nicht
so weit vorgedrungen, weil mir momentan die Zeit dazu fehlt, tatsächlich
bin ich selbst aber aus anderen Gründen (Textkorrektur) an einer solchen
Vollformenliste sehr interessiert.


Siehst du da keine Möglichkeit, das irgendwie umzusetzen, Linhart?

Ich dränge dich nicht, ich verlange nichts, ich frage nur mal an, weil ich nicht weiß, was du zu bewerkstelligen imstande bist und was nicht...
Es ist ja auch alles so wahnsinnig aufwendig...!


Bussinchen Online




Posts: 2

Fri Jul 22, 2011 3:17 pm
#3  Wie kommen Wörter, die nicht im L&S stehen, in die Spellcheckerliste Quote · reply

[...] Ich finde es auch merkwürdig, dass das Wort ANO nicht im L&S steht (Diskussion hierzu siehe Dreibuchstabige lateinische Wörter). Wie dieses Wort dann in die Spellcheckerliste von OpenOffice kommt, ist mir daher schleierhaft. Man müsste dazu wissen, wie diese Spellcheckerliste entstanden ist. Wer weiß, vielleicht basiert die ja auf der Diogenes-Liste, die ihrerseits leider, wie Uvius schon geschrieben hatte, mit Fehlern behaftet ist. Das wäre zumindest ein Ansatz zur Erklärung, warum ANO mit all seinen (vielleicht richtigen, vielleicht auch falschen) Formen in der Diogenes-Liste latin-lemmata.txt steht.


Zitat von Linhart
Ich sehe also momentan keine einfache Möglichkeit, automatisch zu prüfen, welche Wörter der Spellchecker-Liste in L&S stehen.


Ich verstehe. Zu dumm aber auch, dass weder die Datei Lewis & Short Latin Dictionary.pdf (410,576 KB) (siehe hierzu mein Posting im Nachbarthread) noch das Programm Lewis & Short ls_latindictionary.exe (siehe auch hierzu mein Posting) eine Kopierfunktion enthalten.

Wenn wir eine Kopierfunktion hätten, wäre uns so viel geholfen...

Dabei ist doch gar kein Copyright mehr auf dem alten, aber dennoch bewährten L&S aus dem Jahre 1891... Ich frage mich, wer heute an dem Werk kommerzielle Interessen hat, die es verbieten, eine Kopierfunktion einzubauen...


linhart Offline




Posts: 2.463

Fri Jul 22, 2011 3:59 pm
#4 Vergleich der Spellchecker-Liste mit der Whitaker-Liste und/oder den Diogenes-Listen Quote · reply

Ich habe schon daran gedacht, die Spellchecker-Liste mit der Whitaker-Liste und/oder den Diogenes-Listen zu vergleichen. Es gibt da aber gewisse Hürden. Um das zu verstehen, muss man zunächst einmal wissen, wie die Spellchecker-Liste aufgebaut ist: Sie besteht aus zwei Teilen. Der erste Teil (la.dic) ist eine Liste der "Grundwörter", wo bei jedem Wort ein oder mehrere Codebuchstaben stehen, die die Beugung angeben. Der zweite Teil (la.aff) enthält dann für jeden Beugungscode die entsprechenden Endungen. Leider sind die "Grundwörter" aber nicht einfach die Lemmata. Es gibt viele Wörter, die nicht ganz regelmäßige Formen haben, und da sind diese Formen alle oder teilweise auch als Grundwörter angeführt. Bei vielen Verben ist z.B. die 1. Person Sing. des Perfekts als Grundwort eingetragen. Es gibt auch viele Substantive, wo der Genitiv als Grundwort aufscheint.

Am ehesten kann ich mir vorstellen, dass ich feststelle, welche Wörter aus der Spellchecker-Liste la.dic nicht in den Diogenes-Listen stehen. Das sind dann "Grundwörter", die (mit relativ hoher Wahrscheinlichkeit) nicht (in dieser Form) in der Literatur aufscheinen. Wenn das nicht allzu viele sind, kann man sie vielleicht einzeln durchgehen. Die meisten wird man dann streichen können.

Zunächst möchte ich aber die dreibuchstabigen Wort für Wort anschauen.

Ich habe übrigens auch schon bei ca. 650 Verben, wo das Passiv nicht sinnvoll ist, den Code (und die Eintragungen in la.aff) entsprechend geändert.


linhart Offline




Posts: 2.463

Fri Jul 22, 2011 4:06 pm
#5 Das Weglassen des V in Perfektformen Quote · reply

Zum Weglassen von V in Perfektformen:

Ja, in der Spellchecker-Liste der Beugungsendungen (la.aff) stehen auch alle Endungen ohne V, und zwar unter demselben Code wie die mit V. Ich würde auch meinen, dass es am besten ist, wenn ich die Endungen ohne V herausstreiche und dafür mit einem eigenen Code versehen an anderer Stelle eintrage. Diesen Code schreibe ich dann nur bei den Verben dazu, wo ich in der Diogenes-Liste einen Beleg finde. Das kann aber etwas schwierig werden ... Aber Rom wurde ja auch nicht an einem Tag erbaut.


Bussinchen Online




Posts: 2

Fri Jul 22, 2011 6:14 pm
#6 RE: Das Weglassen des V in Perfektformen Quote · reply

Zitat von linhart
Zum Weglassen von V in Perfektformen:

Ja, in der Spellchecker-Liste der Beugungsendungen (la.aff) stehen auch alle Endungen ohne V, und zwar unter demselben Code wie die mit V. Ich würde auch meinen, dass es am besten ist, wenn ich die Endungen ohne V herausstreiche und dafür mit einem eigenen Code versehen an anderer Stelle eintrage. Diesen Code schreibe ich dann nur bei den Verben dazu, wo ich in der Diogenes-Liste einen Beleg finde. Das kann aber etwas schwierig werden ... Aber Rom wurde ja auch nicht an einem Tag erbaut.



Ich verstehe. Die Spellchecker-Liste ist da IMHO etwas voreilig und ungenau. Das sieht mir ganz nach maschineller Erzeugung von Beugungsformen aus. So kann man das nicht machen, dass man grundsätzlich bei sämtlichen Perfektformen das V weglässt und alle diese V-losen Formen pauschal in die Liste einfügt.

Deine Idee, wie du in diesem Fall vorgehen möchtest, um die richtigen (belegten) Formen zu behalten und die falschen (nicht belegten) zu eliminieren, ist sehr gut. Mach mal! ;-)


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble


Bussinchen Online




Posts: 2

Sat Jul 23, 2011 1:13 pm
#7 Gräzismen: Aus dem Griechischen entlehnte Fremdwörter Quote · reply

Zitat von Bussinchen im Forumsbeitrag Dreibuchstabige lateinische Wörter
Der Lemmaeintrag CHUS ist bei L&S mit einem Kreuz versehen, was bedeutet, dass es sich um ein aus dem Griechischen entlehntes Fremdwort handelt, siehe Zweibuchstabige lateinische Wörter.



Ganz toll wäre es, wenn wir durch den Vergleich unserer Listen auf irgendeine Weise alle Gräzismen erfassen und in eine gesonderte Dic-Kategorie verfrachten könnten. Bei bisherigen Testspielen auf Latein hat es mich tatsächlich schon gestört, wie viele griechische Wörter der Computer legt. Da kann kein durchschnittlicher klassischer Lateiner mithalten. Ein Spiel auf Latein sollte meiner Meinung nach doch ein Spiel auf Latein bleiben und nicht in ein in lateinische Buchstaben transliteriertes altgriechisches Spiel ausarten.

Ob dieser Wunsch umzusetzen ist, ist natürlich eine andere Frage.


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble


Bussinchen Online




Posts: 2

Mon Jul 25, 2011 3:19 pm
#8 RE: Gräzismen: Aus dem Griechischen entlehnte Fremdwörter Quote · reply

@Linhart:

Sind die aus Fremdsprachen, insbesondere aus dem Griechischen entlehnten Wörter in den Spellchecker-Listen und/oder in den Diogenes-Listen und/oder in der LISTALL-Liste von Whitaker eigentlich auf irgendeine Weise kenntlich gemacht, so wie dies etwa im L&S der Fall ist?

Es wäre schön, wenn das so wäre.


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble


linhart Offline




Posts: 2.463

Mon Jul 25, 2011 9:05 pm
#9 RE: Gräzismen: Aus dem Griechischen entlehnte Fremdwörter Quote · reply

Leider nein. Nicht einmal im heruntergeladenen L&S-Programm sind die Griechisch-Markierungen sichtbar. Ich sehe daher vorläufig keine Möglichkeit zur automatisierten Einrichtung einer entsprechenden Kategorie.


Bussinchen Online




Posts: 2

Mon Jul 25, 2011 9:35 pm
#10 RE: Gräzismen: Aus dem Griechischen entlehnte Fremdwörter Quote · reply

Das habe ich schon befürchtet.
Ich verstehe nicht, warum man im L&S-Programm nicht die Kreuze zur Kennzeichnung der Gräzismen aus der Druckversion des L&S übernommen hat.
Immer ist irgendwo ein Haken an der Sache. Mir hätte es an sich gut gefallen, eine Kategorie für die Gräzismen/Fremdwörter einzurichten. Aber wenn wir keine Markierungen haben, ist das ein Unding. Schade!


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble


Bussinchen Online




Posts: 2

Tue Aug 09, 2011 4:46 pm
#11 RE: Lewis & Short - eingescannt und mit OCR in Text umgewandelt Quote · reply

.
http://www.archive.org/stream/LatinDicti...ewis_a_djvu.txt

Zitat von linhart
Hier ist ein gutes Beispiel, das zeigt, wie wichtig L&S als durchsuchbarer File wäre


Wie hilfreich sind hier eigentlich die beiden Diogenes-Files latin-lemmata.txt und latin-analyses.txt, die ja angeblich auf dem L&S basieren?


linhart Offline




Posts: 2.463

Wed Aug 10, 2011 7:48 am
#12 RE: Lewis & Short - eingescannt und mit OCR in Text umgewandelt Quote · reply

Die Files latin-lemmata und latin-analysis enthalten im Wesentlichen die Informationen, die das Word Study Tool verwendet (mit allen Fehlern und Ungereimtheiten), jedoch nicht den Text der Worterklärungen von L&S.

Für mich sind diese Files trotzdem sehr nützlich. Z.B. gehe ich jetzt bei den vierbuchstabigen Wörtern so vor, dass ich zunächst mit den Spellcheckerlisten alle erzeuge und dann nur diejenigen genauer ansehe, die nicht in den Diogenes-Files stehen. Ich gehe also davon aus, dass die Wörter, welche in beiden Listen vorkommen, in Ordnung sind. Das wird natürlich nicht 100%-ig stimmen, aber die Wahrscheinlichkeit dürfte doch recht hoch sein, weil allem Anschein nach die Spellcheckerlisten unabhängig von den Diogenes-Listen erstellt wurden.

(Nach demselben Prinzip bin ich ja auch bei der Verbesserung der deutschen Wortlisten vorgegangen. Da waren es die weitgehend unabhängig voneinander erstellten Listen von Gero und Jörg.)


Bussinchen Online




Posts: 2

Sun Oct 09, 2011 6:51 pm
#13 Kategorien im latin.dic Quote · reply

Zitat von linhart im Beitrag #9 auf Wie wir mit den verschiedenen Listen umgehen... in Antwort auf meine Frage im Beitrag #8 Wie wir mit den verschiedenen Listen umgehen...
Leider nein. Nicht einmal im heruntergeladenen L&S-Programm sind die Griechisch-Markierungen sichtbar. Ich sehe daher vorläufig keine Möglichkeit zur automatisierten Einrichtung einer entsprechenden Kategorie.


Du hast in letzter Zeit aber mehrfach erwähnt, dass du Wörter in verschiedene Kategorien verfrachtest. Hast du also angefangen, das manuell zu machen?

Was für Kategorien legst du im latin.dic genau an
Machst du es wohl so -->

Kategorie 1 für Hapax legomena (*)
Kategorie 2 für aus dem Griechischen entlehnte Wörter (†)
Kategorie 3 für aus anderen Sprachen als dem Griechischen entlehnte Wörter (††)
Kategorie 4 für in Inschriften oder bei antiken Grammatikern belegte Wörter (‡)

Ich frage nach, weil mich das doch sehr interessiert...


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble


linhart Offline




Posts: 2.463

Sun Oct 09, 2011 7:48 pm
#14 RE: Kategorien im latin.dic Quote · reply

Ich habe schon einmal geschrieben, wie ich das machen will: Anlegen von Kategorien im latin.dic

Ich habe die griechischen Wörter in die Kategorie 1 getan, weil das im Vergleich zu den anderen bei weitem die "gewöhnlichsten" Wörter sind. Inbesondere die Hapax legomena und die Wörter aus den Inschriften und von den Grammatikern sind häufig äußerst ungewöhnlich und/oder problematisch . Das ist zumindest der Eindruck, den ich bis jetzt gewonnen habe.

Ich habe bereits alle Wörter bis zu vier Buchstaben dementsprechend klassifiziert und nun begonnen, das ganze Wörterbuch diesbezüglich durchzugehen. Da bin ich aber erst auf Seite 20 (von ca. 2000). Das wird also noch dauern ...

Wenn du eine andere Numerierung der Kategorien haben willst, kann ich das natürlich leicht machen. Ich würde dir aber vorher empfehlen, die Wörter der verschiedenen Kategorien bei den vierbuchstabigen Wörtern anzusehen.


Bussinchen Online




Posts: 2

Sun Oct 09, 2011 9:07 pm
#15 RE: Kategorien im latin.dic Quote · reply

Entschuldige bitte, Linhart, dass ich das vermasselt habe...

Ich bin auch generell so im Verzug mit allem - vor allem was das Durchsehen der Listen mit den 3- und 4-buchstabigen Wörter und das Anschreiben von Clint Hagen betrifft...

Bussinchen-Adminchen:
Ich glaube, ich lege für die Frage der Kategorien im latin.dic am besten einen separaten Thread an, wohin ich dann die entsprechenden Beiträge verschiebe.


I OpenSource!
• Scrabble3D Download: Sourceforge.net | • Scrabble3D Help: Wiki | • Scrabble3D News: Twitter | • Scrabble3D Fanship: Facebook
• Scrabble3D in Italia: Sezione Scrabble3D sul Forum della Federazione Italiana Gioco Scrabble


pages 1 | 2
 Jump  
disconnected Scrabble3D Chat Members online 1
Xobor Einfach ein eigenes Forum erstellen