| Evaluation arabischer Webseiten:
Informationsangebote im Bereich Medien und Kultur Dr. Abier Bushnaq
Abstract:
1. Einleitung: Während meiner Arbeit im Info-Center und Recherchedienst der FAZ (2001-2002) machte ich gelegentlich Recherchen in arabischen Quellen im Internet: Ich suchte beispielsweise nach einen brisanten Artikel in der Tageszeitung al-Quds al-arabi, aus dem hervorgegangen sein soll, daß der Herausgeber Abdulbari Atwan eine Woche vor dem Anschlag des 11. Septembers 2001 ein Interview mit Bin Laden gehabt haben soll. Bin Laden soll in diesem Interview vor einem Anschlag gewarnt haben. Zu jenem Zeitpunkt bot Al-Quds dem User das komplette Zeitungsarchiv als abrufbare PDF-Files an. Mühselig und umständlich waren meine Recherchen und kosteten viel Zeit. Das besagte Interview war im Übrigen vermutlich gar nicht in der Zeitung abgedruckt. Heute, ein knappes Jahr danach, ist die Volltextsuche in al-Quds wesentlich einfacher. Das gilt auch für al-Hayat und andere Zeitungen, die ein neues Online-Datenbank-Programm von Sakhr zur Speicherung ihrer Datenbestände eingeführt haben. Eine arabische Suche war damals aus technischen Gründen schwierig, es lag nicht an mir. Trotzdem habe ich mich geärgert, da es bei mir als Unser erheblich an Information mangelte. Ich kannte noch keine einzige arabische Suchmaschine. Solche unbefriedigenden Ergebnisse wiederholten sich, ich dachte über Methoden nach, die Recherchen zu verbessern. Denn wer es versteht, mit den verschiedenen Suchsystemen umzugehen, braucht keine abenteuerlichen Reisen mehr in den Orient zu machen: Das arabische World Wide Web legt ihm die ganze arabische Welt auf seinen virtuell-fliegenden Teppich zu Füßen. Dem Internet wird von arabischen Gebrauchern zunehmende Bedeutung beigemessen.
Die orts-unabhängige Verfügbarkeit, Aktualität der Nachrichten,
kostenlose und vor allem unzensierte Information im Hintergrund arabischer
Bürokratie, politischer Unterdrückung, Autoritäts- und Stammesgläubigkeit
und sozialer Überwachung ist zu verlockend, um nicht genutzt zu werden.
Wo die Politik und soziale Entwicklung auf der realen Wirklichkeitsebene
scheitern, erlebt die arabische Welt virtuell in der Wirklichkeit des Hyperspace
einen bahnbrechenden Erfolg. Vor allem können erstmals effektiv und
sinnvoll die im Exil lebenden Araber zur Entwicklung ihrer Heimatländer
beitragen. Kritik aus großen Entfernungen wird zur Waffe des kleinen
Mannes.
Die Entwicklung ging am Anfang recht zäh voran. Aus verschiedenen
Gründen war sie gehindert. Vorwiegend scheiterte es an politischen,
legalen und gesellschaftlichen Gründen. Es war auch eine Frage der
Finanzen: Es ist relativ kostspielig, sich die notwendige Computer Hardware
zu besorgen. Ein vorwiegend von der englischen Sprache dominiertes Web
war wenig reizvoll für diejenigen, die diese Sprache nur rudimentär
kannten.3
Das Verhalten des arabischen Users heute lässt sich anhand statistischer Angaben mancher Portale und Anbieter ablesen, siehe www.sahafa.com (Top 100 mit Zahl der Besucher, siehe Links zu arabischen Zeitungen im Anhang), Ranking von al-Khayma (ibid.), Ajeeb u.a. Der "eXTReMe Tracker" von al-Hayat (www.alhayat.com) zeigt eine Besucherzahl von durchschnittlich 2340 pro Woche. Die Gesamtbesucherzahl in den 634 Tagen seit dem ersten Internetauftritt der Zeitung ist 262245 (einschließlich Reloads). Davon haben 207298 (91,01%) die Seite www.alhayat.com nicht direkt auf ihren Browser geladen, sondern über einen Link auf einer anderen Seite. Das größte Presse-Portal, über das arabische User verschiedene Zeitungen anwählen, ist www.sahafa.com. Es gibt für al-Hayat 503 Website Referrers (Links von anderen Seiten auf die Homepage von al-Hayat), sie werden vom Tracker aufgelistet (Stand 31.8.2002). Abzulesen ist in der Statistik auch, daß der Großteil der Webnutzer noch mit dem Betriebssystem Win 98 arbeitet. Je größer die Informationsflut ist, desto höher sind
die Ansprüche an die verschiedenen Suchsysteme. Bekanntlich sind Internet-Kataloge,
Suchmaschinen und spezielle Agenturen-Software das Herzstück des www.
Ziel der Arbeit ist es, einen groben Überblick über das vorhandene
Angebot arabischer Webseiten und die Recherchemöglichkeiten im Internet
zu schaffen. Zur Feststellung der Tauglichkeit von Werkzeugen hinsichtlich
der Availability (Verfügbarkeit von Dokumenten) wurden sieben Suchwerkzeugen
mit dem sogenannten Known-Item-Test geprüft. Dies bildet den Hauptteil
dieser Arbeit.
1.1. Technische Voraussetzungen Erfahrungsgemäß sieht die Realität oft anders aus als von den Software-Herstellern dargestellt wird. Folgende erprobte Alternativen stehen zur Auswahl, um im arabischen Web browsen und editieren zu können: 1. Netscape Navigator mit arabischem Erweiterungsprogramm Sindbad
2. Arabisches Betriebssystem Windows (95, 98, Me)
3. Windows 2000 (Englisch/Deutsch) + Office (Englisch/Deutsch)
4. Englisches/Deutsches Betriebssystem Windows 98, NT oder höher
+ multilingualer Netscape Navigator 6.3.2. (Netscape modified version of
JRE 1.3.1)
5. Surfen mit Microsoft Internet Explorer ohne arabische Zusatzprogramme
6. Macintosh
2. Die arabische Sprache Arabisch ist eine flexionsreiche Sprache, deren komplexe Morphologie es erlaubt, Hunderte von Wortformen aus einer einzigen drei-radikaligen Wurzel (aus nur drei Konsonanten) zu bilden, erweitert durch Suffixe und Präfixe. Im Arabischen werden die Buchstaben - wie bei jeder europäischen Sprache auch - handgeschrieben zusammengeschrieben. Während jedoch im Deutschen oder Englischen die Buchstaben in gedruckter Form alleinstehen, sind sie im Arabischen weiterhin miteinander verbunden. Das bedeutet, daß die 28 Buchstaben, je nach Position im Wort, verschiedene Formen haben.8 Es gibt jedoch einige Buchstaben - wie das waw (w, u), das lange alif (a), das d- und das dh- - die sich mit vorangegangenen, aber nicht mit den darauf folgenden Buchstaben verbinden lassen. Es kann dann der Eindruck entstehen, daß es sich wegen des Leerzeichens um zwei Wörter handelt. Die Verdopplung von Konsonanten (taschdid) wird bei unvokalisierten Texten manchmal gekennzeichnet, und manchmal nicht, ebenso die hamza im Anlaut. Sollte ein System technisch mit diesen formalen Problemen der Orthographie und Schreibrichtung zurecht kommen, ist es als nächstes mit der Komplexität der arabischen Morphologie konfrontiert. Neben präfigierten, infigierten und suffigierten Morphemen besitzt
das Arabische wie die ihm verwandten Sprachen stammbildende Morpheme, die
die Verteilung der Vokale im Wortstamm bestimmen. Die Wurzel besteht in
der Regel nur aus Konsonanten, Radikale genannt. Die Vokale sind gewöhnlich
morphematisch bestimmt. Der größte Teil der Wurzeln ist 3-radikalig,
ein geringer Anteil 4-radikalig. Beim Pronomen, bei einigen Partikeln und
den Primärnomina sind die Vokale nicht morphematisch, sondern wurzelhaft.
Es gibt zehn Verbalstämme. Das Verbum verfügt über eine
Suffixkonjugation und eine Präfixkonjugation. Die Suffixkonjugation
bildet das Perfekt; in der Präfixkonjugation werden Imperfekt, Konjunktiv,
Apocopatus und Energicus gebildet. In beiden Konjugationen steht neben
dem Aktiv ein Passiv, das sich durch Stamm- und Präfixvokale vom Aktiv
unterscheidet. Für die Flexionen und Wortbildung ist der Imperfekt-Vokal
wichtig und wird in Wörterbüchern immer mit angegeben. Das pronominale
Subjekt ist im Verb inkorporiert (tasma’=Du hörst, dhahabu=sie gingen).
Die Verkleinerungsform (Diminutiv) wird morphemisch im Wortinnern gebildet,
nicht wie im Deutschen als Endungssuffix -chen: kalb= Hund, kulaib (Hündchen,
gabal=Berg, gubail=kleiner Berg. Zustandsakkusativ (tritt als prädikativ
zum Verb und gibt einen gleichzeitigen Zustand an (er kam reitend, weinend,
fliehend) wird als undeterminiertes Akkusativ mit Nunation immer mit einem
langem -a geschrieben, auch wenn es unvokalisiert bleibt.
Es gibt nicht nur komplizierte Erweiterungsformen der Stämme. Ein
Wort, das unvokalisiert dasteht, kann ungemein vieles bedeuten (Homonyme).
Zum Beispiel das Wort salima heißt bewahrt sein von, wohlbehalten
sein, gerettet sein von. Da die Verdopplung von Konsonanten in der unvokalisierten
Schreibweise nicht durch schadda erkenntlich gemacht wird, kann das Wort
auch im II. Stamm stehen, sallama, dann bedeutet es begrüßen,
die Hände schütteln, kann aber auch heißen etw. übergeben,
oder sich selbst stellen (z.B. der Polizei). Das Substantiv salam heißt
Terminkauf, sillam heißt Leiter, silmun heißt Frieden, all
dies und wohlmöglich mehr kann das unvokalisiert geschriebene Wort
mit den drei Radikalen s-l-m bedeuten. Ein anderes Beispiel: hakima bedeutet
regieren, urteilen. Das Substantiv davon hukm (Herrschaft) hat dieselbe
Form, hikam ist der gebrochene Plural von hikma, was Weisheit bedeutet,
hakkama bedeutet behandeln (Arzt seine Patienten), neben der Passivformen
hukima und hukkima. Drittes Beispiel: zalima bedeutet ungerecht behandeln,
zulm ist das Substantiv Ungerechtigkeit, zaluma bedeutet es wurde dunkel,
zallama bedeutet dunkel machen (auch hier ist die Passivformen zulässig).
Ebenso das Beispiel sadira: sadira heisst herausgeben (z.B. ein Buch),
saddara bedeutet exportieren, sadr bedeutet Brust, sudira wäre passiv
von herausgegeben, suddira das Passiv von exportieren, saddir wäre
das Imerativ exportiere!
2.1. Probleme bei der Recherche Die eben dargestellten Besonderheiten der arabischen Sprache machen
deutlich, daß Dokumentare und Bibliothekare, die sich täglich
mit der Gewinnung, Erschließung und Vermittlung von Information befassen,
vor einem Problem stehen.
Wie eine Studie von Moukdad (2001) zeigt, treten die Wörter in ihrer reinen Form ohne Präfixe im Arabischen viel seltener auf als mit Präfixe. Ein weiterer Retrievaltest von ihm ergab, daß sich erwartungsgemäß auch die Zahl der gefundenen Dokumente entsprechend vergrößerte, wenn man zusätzlich nach Wörtern mit Präfixen suchte. Moukdad untersuchte Web-Suchmaschinen nach ihrer arabischen Retrieval-Fähigkeit.
Die meisten Suchmaschinen, die hauptsächlich für das Retrieval
in Englisch entwickelt sind, lassen eine Rechtstrunkierung (Suffixe), aber
keine Linkstrunkierung zu. Die Suche mit Linkstrunkierung in der deutschen
oder englischen Sprache ergibt oft keinen Sinn, da die entstehenden neuen
Wörter in keiner semantischen Beziehung mehr zum Wortstamm stehen.
Man kann mit Präfixen zum Beispiel von dem englischen Wort "position"
neue Wörter bilden wie "preposition", "exposition", "supposition",
"deposition", "imposition" usw., sie haben aber nichts mehr mit der ursprünglichen
Bedeutung zu tun und können von der Recherche ausgelassen werden.
Zu diesem Ergebnis sind vor Moukdad schon andere Wissenschaftler gekommen,
die Retrievaltests offline mit unterschiedlich indexierten Datensätzen
testeten.
Hmeidi untersuchte die Vor- und Nachteile des manuellen versus automatischen Indexieren (er verwendet die Methoden der Recall und Precision). Die Vor- und Nachteile mehrerer Indexiermöglichkeiten werden untersucht, indem einmal ganze Wörter, ein anderes Mal Wortstämme und schließlich die drei- bzw. vier-radikalige Wurzel als Indexate verwendet. Seine Untersuchungen bestätigen die Ergebnisse, zu der schon einmal zuvor Al-Kharashi (1991, 1994) und Abu-Salem (1992) mit einer kleineren Untersuchungsmenge gekommen sind, nämlich, daß das Indexieren arabischer Texte (sowohl im manuellen als auch automatischen Indexierungsverfahren) mit Wortwurzeln (drei-radikaliger I. Stamm) sinnvoller ist, als mit kompletten Wörtern.12 Hmeidi stützte sich bei seinen Argumenten für automatisches Indexieren auf Salton, der in den 70er und 80er Jahren zahlreiche Experimente an englischen Texten machte und als Ergebnis die automatische Indexierung als die beste Lösung für die National Library of Medicine vorschlug. Dokumentare lesen und verstünden den Text, sie machen aber viele Fehler, so argumentierte er damals. Umso mehr Texte es gäbe, desto höher sei die Zahl der Indexate und desto höher die Fehlerquote. Salton verwendete Methoden der Frequency (Häufigkeit, in der Worte in einem Text vorkommen). Hmeidi untersuchte Saltons Methoden an arabischen Texten und machte bei seiner Erklärung des Verfahrens, in dem Indexate aufgrund ihrer Häufigkeit automatisch erfasst werden, auf wichtige Unterschiede aufmerksam, die der arabischen Sprache eigen sind. "The most frequent terms are discarded as too general, the least frequent as too specific, and the midrange terms are used as index terms. (...) the transfer is not a simple process since the complexities of Arabic language imply that any individual word will appear much less often, that is, the token to type ratio for Arabic is much lower than for English, and the inverse document frequency, which is central to many approaches to automatic indexing, is typically much higher. The token to type ratio is the quotient obtained by dividing the number of running words by the number of distinct words in a text".13Offenbar kommen einzelne Wörter im Arabischen aufgrund der Wortvielfalt und komplexen Morphologie viel seltener vor als im Englischen. Mit einer so großen Zahl von Wörtern, die durch die Vielfalt
an erweiterten Formen nur einmal vorkommen, ist es da überhaupt möglich,
eine auf Häufigkeit basierende Formel zu finden, die eine automatische
Indexierung ermöglicht? Ist es ausreichend, die Häufigkeitsgrenze
(Maximum- und Minimum-Grenze) für die Frequency von Indexaten einfach
zu reduzieren? Die Regeln der Frequency müssten für das
Arabische neu definiert werden, oder taugen sie überhaupt für
eine automatische Indexierung der arabischen Texte? Hmeidi verwendete verschiedene
automatische und manuelle Techniken der Indexierung und prüfte ihre
Eignung für den Information Retrieval von arabischen Dokumenten. Er
übernahm die Rechnungsmethode von al-Karashi (1991), dessen Algorithmen
auf Keen (1972) basieren und wertet die Ergebnisse statistisch mit den
von Salton & McGill angewandten "Signed Pair Test" und "Wilcoxon Signed
Ranked Test" aus.14
Die desolaten Verhältnisse von arabischen Archiven und Bibliotheken,
wie es aus der einschlägigen Literatur herauszulesen ist,19
zeigen, daß das www auch hier Lösungen anbieten kann, die bisher
kaum denkbar waren und daß sprachlich getrennte Kataloge nun international
verfügbar gemacht werden können.20
3. Arabische Suchmaschinen Jede Suchmaschine deckt nur einen Teil der Dokumente im Netz ab. Neben der Größe (Abdeckungsgrad des Web) muss eine Suchmaschine weitere Qualitäten vorweisen, um brauchbar zu sein: Aktualität des Suchmschinen-IndexSo sollte man sich stets fragen, wenn man für die Recherche arabische Suchmaschine benutzt, welche Suche voreingestellt ist, AND- oder OR-Verknüpfung, ob eine Phrasensuche möglich ist, ob das System präfigierte Wortformen findet (z.B. Determination?). Sucht es bei der Eingabe eines Wortes (z.B. hurriyya, dimuqratiyya, Freiheit, Demokratie) sowohl determinierte (al-hurriyya, ad-dimuqratiyya) als auch undeterminierte (hurriyya, dimuqratiyya) Wörter? Erkennt es angehängte Wörter (wa- (=und)) oder Präpositionen ka-l-qamar (=wie der Mond)? Erkennt es Personalsuffixe als nicht dem Wort angehörende Suffixe? Findet es regelmäßige Plurale mit einfacher Trunkierung (mu’allima, mu’allimat (Lehrerinnen), muharib, muharibun (Kämpfer) oder auch unregelmäßige Plurale, bei denen sich die Wortform im Innern ändert (ustadh, asatidha) oder erkennt es keines von beiden? Kann man nach vokalisierten Wörtern genau suchen oder nur nach Wörtern in der konsonantischen Schreibung? Diese Fragen sollen unter anderem nachgegangen werden. Ist das Erraten der Adresse einer arabischen Webseite möglich? In der Regel muss man genau wissen, wie der Name (etwa einer Zeitung)
in der englischen Transkription geschrieben wird, dieser ist meistens im
URL enthalten. Der Top Level Domain ist in der Regel .com (steht für
commercial organisation) oder .org (steht für organisation), manchmal
mit zusätzlichem Länderdomain (z.B. www.ahram.org.eg).
An dritter Stelle findet sich .net als Top Level Domain (z.B. http://www.aljazeera.net/).
Webseiten von arabischen Organisationen und Zeitungen in Amerika haben
auch oft den Generic Top-Level Domain .edu (in Zusammenarbeit mit Universitäten
entstandene Web-Angebote). Da aber der URL lang sein kann, ist die Suche
über Google oder einer arabischen Suchmaschine empfohlen.
Diese Beispiele zeigen, daß man zur Findung einer Internet-Adresse
über kurz oder lang doch auf die Suchwerkzeuge angewiesen ist.
Im folgenden werden die gängigen Suchmaschinen mit einer kurzen Beschreibung
aufgeführt. Danach werden auserwählte Suchmaschinen, die Suchfragen
auf Arabisch zulassen, einem Availability Test, dem Known-Item-Test, unterworfen,
um Umfang und Funktionalität der einzelnen Suchmaschinen zu messen.
3.2. Arabische Suchmaschinen www.arabia.com (ehemals www.arabia.on.line)21
Die voreingestellte Verknüpfung ist AND. Eine OR-Verknüpfung ist nicht möglich. Man kann Wörter durch ein vorangestelltes Minuszeichen ausklammern (NOT-Verknüpfung). Stopwörter wie "where" und "how" (ayna, kaifa) sowie einige alleinstehenden Ziffern und Wörter können mit einem vorangestellten Pluszeichen berücksichtigt werden. Die erweiterte Suche durch Trunkierung ist nicht möglich. Wenn man also beispielsweise "arabi" eingibt, sucht www.arabia.com nicht auch nach "arabia" oder "arabia.com". Man kann nur nach der reinen (identischen) Wortform suchen. Sucht man in arabia.com und in Google nach den selben Wörtern, so erhält man in www.arabia.com genau so viele Treffer (ggf. ein bisschen mehr) wie in Google, auch das Ranking ist fast identisch. Die Suchmasken bleiben getrennt (nicht wie in Ajeeb, der automatisch nach Eingabe der Suche in eine provisorische Suchmaske die Oberfläche auf Alltheweb wechselt). Eine verfeinerte Rubrikensuche im Web-Verzeichnis von arabia.com (catergories und subcategories), die von Ayna unterstützt wird, ist unter www.daleel.arabia.com möglich (wählt man aus Wissenschaft z.B. die Rubrik Astrologie, und sucht man anschließend nach "Saturn", erhält man alles über Saturn, nicht zutreffende Dokumente über das Spiel Saturn oder das Auto Saturn werden automatisch ausgeschlossen. Eine integrierte Firmendatenbank von Hoover’s ist allerdings nur über die englische Suchmaske verfügbar. Weitere themenspezifische Datenbanken: Der Koran und die Hadith-Sammlung (Aussprüche des Propheten), PBUH, Länderspezifische Verzeichnisse, Ratgeber und Terminkalender.22 www.ayna.com
Ayna sucht nur im eigenen Datenbestand (allgemein oder Rubrikensuche). Am Ende der Trefferliste sind Links zu: Google, AltaVista, Search, Excite, Google Groops, HotBot, Lycos.com, Yahoo). Klickt man auf eine Suchmaschine, so wechselt er automatisch auf die Suchoberfläche der gewählten Suchmaschine um und sucht für dieselbe Anfrage dort noch einmal mit anderen Ergebnissen und neuer Suchmaske, wo man die Suche mit anderen Funktionen als in Ayna noch verfeinern kann. www.ajeeb.com
Für die Suche im www gibt es andere Kriterien, die mit den Kriterien
von www.alltheweb.com übereinstimmen,
da nach Ausfüllen der Suchmaske die Oberfläche auf die von Alltheweb
wechselt. Man kann mit den Booleschen Operatoren operieren, die gewünschte
Sprache eingeben, die Domäne definieren (-.com, -.net, -.org, -.edu,
Ländercode). Weitere Filter: zusätzliche Wörter, die enthalten
sein sollten, enthalten sein müssen, oder nicht enthalten sein dürfen
(should include, must include, must not include) im Text, im Titel, im
Linkname, im URL oder in einem Link zum URL. Das Korrektursystem scheint
auch hier aktiviert zu sein, obwohl es in der www-Suchmaske nicht als Wahl
angeboten wird. Den Test mit der falschen Schreibform von Ahmad ohne Hamza
(bei anlautenden Vokalen) habe ich in Alltheweb wiederholt. Alltheweb sucht
sowohl nach Ahmad mit Hamza als auch Ahmad ohne Hamza.
www.4arabs.com
www.arabvista.com
Trotz einer offenbar großen Datenbasis weist Arabvista eklatante
Qualitätsmängel auf. Das Programm versagt an dem Processing.
Vieles scheint nicht zu funktionieren. Man kann nicht nach einer Phrase
suchen (weder mit Parenthese noch die Einstellung (exact phrase) noch die
AND-Verknüpfung durch die Ausschreibung "wa" scheint zu funktionieren.
Man soll theoretisch wählen können zwischen Arabvista, Internet,
News und Discussion Groups, das System stürzt jedoch bei der Wahl
"Internet" hoffnungslos ab (auf der Englischen Seite wird die Wahl "Internet"
erst gar nicht angeboten).
Titel der Links sind zu lang und geben den Sinn des Inhalts nicht präzise
wieder. Das Suchwort, wenn es denn mal in der Trefferliste zu sehen ist,
ist nicht hervorgehoben. Die Rangordnung ist zweifelhaft, selten sind relevante
Treffer auf vorderen Plätzen.
www.naseej.com
www.arabic2000.com
www.arab.net
www.murshid.com
www.arabsites.com
http://www.konouz.com/ und
http://eyoon.fares.net/
http://www.awse.com/arabic/index.htm
www.raddadi.com
Globale Suchmaschinen, die eine Suche mit arabischen Schriftzeichen
erlauben, sind zum Beispiel Google, AltaVista, Yahoo, Alltheweb und das
arabische MSN. Die meisten dieser Suchmaschinen erlauben keine Trunkierung
und sind empfindlich, was die Wortform anbetrifft (berücksichtigen
keine Vokalisierung, erkennen keine Suffixe etc). MSN, führender Netzanbieter
in den Golfstaaten und anderen arabischen Ländern, bietet diese Suchfunktion
unter http://www.arabic.arabia.msn.com/
an. Dies habe ich erst nach den Ergebnissen meiner Known-Item-Analyse entdeckt,
sonst hätte ich sie bei der Untersuchung mit aufgenommen. Auf der
englischen Homepage von MSN ist die Suche mit arabischen Schriftzeichen
nicht möglich und einen Verweis auf die arabische Suchmaske gibt es
von dort aus nicht. Viele der arabischen Web-Verzeichnisse (insbesondere
diejenigen, die über ein kleinere Datenmenge verfügen) richten
eine provisorische Suchmaske ein mit Verlinkung auf diese globalen Suchmaschinen.
Ayna sucht nur im eigenen Datenbestand. Hat man eine Suche gestartet, verweist
Ayna am Ende der Trefferliste auf Google, AltaVista, Search, Excite, Google
Groops, Hot Bot, Lycos und Yahoo.
Als kurzen Einblick wurde getestet, wie die jeweiligen Suchmaschinen auf die Wortkombination huquq al-amal (Arbeitsrecht, wörtlich "Rechte der Arbeit") reagieren (alphabetische Reihenfolge, Rev. 1.9.2002): AllthewebDieser Test zeigt schon, wie groß der Unterschied der Suchmaschinen sind, zum einen von der erheblich unterschiedlichen Trefferzahl, was Rückschlüsse über die Datenmengen, auf die die jeweiligen Suchmaschinen und Webkataloge zurückgreifen, erlaubt, zum anderen in der Zulässigkeit bzw. Unzulässigkeit einer auf arabisch gestellten Suchfrage. Arabvista schnitt von der Trefferzahl am besten ab, die Suche ist jedoch auf OR-Verknüpfung eingestellt und sehr ungenau, das Ranking willkürlich. Die Suchwörter kommen nicht im Titel und nicht in der Annotation vor und wenn doch, sind sie nicht hervorgehoben. Ob die Suchmaschine tatsächlich arabische Wortableitungen suchen kann, konnte ich bei der Menge nicht sicher feststellen. Ich bezweifle es, da dies mit einem höchst komplizierten linguistischen Verfahren einhergeht. Mit Phrasensuche lässt sich die Suchfrage in Arabvista am erfolgreichsten eingrenzen. Alle anderen Funktionen sind mangelhaft bis untauglich. Nach Arabvista folgen in großen Abständen Alltheweb, MSN Arabic, AltaVista, Google, Yahoo, Hotbot (Lycos, Fire Hunt, AOL und Northern Light haben sich fürs Arabische als untauglich erwiesen, ebenso Infoseek und Webcrawler). Negativ zu bewerten sind Suchmaschinen, die behaupten, Arabisch lesen zu können und Ergebnisse liefern, die im Grunde beim genauen Hinsehen nur Fehltreffer bieten (z.B. Northern Light, Lycos). Der User möchte schließlich schon am Anfang wissen, woran er ist. Es ist beruhigender, bei einer Suchfrage Null Treffer zu erhalten als 1000 falsche. Während die Suche mit AND-Verknüpfung einiges über die
Datenmenge aussagt, auf die die Suchmaschinen zurückgreifen, konnte
man mit der Phrasensuche im Vergleich feststellen, ob die Suchmaschinen
zum Teil auf die gleichen Quellen zurückgreifen oder nicht (mehr dazu
in der Known-Item Analyse).
4. Die Known-Item-Analyse zur Messung der
Nach reifer Überlegung habe ich Abstand genommen von Retrievaltests nach den Recall- und Precision-Methoden. Aufgrund der unbekannten Gesamtmenge der relevanten Dokumente im Web lässt sich der absolute Recallwert Rabs (Anteil der gelieferten relevanten Dokumente an allen in der Datenbasis vorhandenen relevanten Dokumenten in Prozent) nicht erfassen. Es gibt zwar Methoden, wie man dies umgeht (es müsste von einem relativen Recall ausgegangen werden). Auch bei der Precision (dem Anteil der relevanten Ergebnisse an allen gelieferten Ergebnissen in Prozent) müsste man folglich mit einem Cut-Off-Wert arbeiten (relativer Recall). Ich habe großen Zweifel an der Genauigkeit dieser Tests und befürchte, daß sie bei der geringen Menge der Datenmenge, die ich im Rahmen dieser Arbeit testen kann, schnell zu falschen Schlüssen führen könnten. Ungeeignet erschienen mir diese Methoden auch, da wir es im Internet mit riesig großen Treffermengen zu tun haben. Die Überprüfung der Relevanz der Dokumente relativ zur Suchfrage ist insbesondere bei nicht genug funktionierendem Ranking ein Problem, da wir nicht davon ausgehen können, daß die ersten Treffer die relevantesten (Precision) sind. Die Relevanzbeurteilung würde außerdem viel zu viel Zeit kosten, in der auch subjektive Momente eingehen.27 Ich entschied mich für den Retrievaltest "Known-Item-System", einem Verfahren, das - erstmals im Jahre 2000 von Mechtild und Wolfgang G. Stock an Internet-Suchwerkzeugen vorgestellt - bisher aus der Bibliothekswissenschaft bekannt war.28 In diesem Test wird von Dokumenten ausgegangen, deren Existenz bekannt ist, und die zum Zeitpunkt der Evaluation mit Sicherheit aktiv sind. Die Trefferquote zeigt die Verfügbarkeit (Availability) der Dokumente, welches in dieser Arbeit auch Kriterium für unsere Bewertung der verschiedenen Suchmaschinen sein wird. Aufgrund der Bekanntheit der Dokumente wird das Problem der Relevanzbewertung hinfällig. Getestet werden sechs Suchwerkzeuge mit arabischer Einrichtung. Es werden insgesamt 20 Known-Items gesucht, die sich innerhalb der ersten 20 Treffer befinden müssten. Der Messwert hat zwei Ausprägungen: das Zieldokument wird entweder gefunden oder nicht (x, -). Die Availability A eines Suchwerkzeugs errechnet sich als Quotient aus der Anzahl der gefundenen Dokumente Dgef und aller gesuchten Dokumente D in Prozent, d.h. A=Dgef/D*100 20 bekannte Dokumente (5 je Kategorie)
4.1. Prozedur der Known-Item-Analyse Getestet werden sieben Suchwerkzeuge mit arabischer Spracheinrichtung (Ayna, Ajeeb, Arabvista=al-bahhar, arabia.com, Google, Yahoo, Alltheweb), wobei zwei Suchmaschinen an zwei andere gekoppelt sind (Ajeeb an Alltheweb, arabia.com an Google). Es werden insgesamt 20 Known-Items (von mir vorher ausgesuchte Webseiten) gesucht, die sich innerhalb der ersten 20 Treffer befinden müssten. Die Suchwerkzeuge werden jeweils mit derselben Suchfrage konfrontiert, nach der die Known-Items gefunden werden sollen. Der Retrievaltestlauf umfasst 20 Dokumente. Um eine möglichst große Streubreite zu erreichen, wählte ich Webseiten zu verschiedenen Themen, Zeitungsartikel, Portale von privaten Personen, Banken- und Firmenmeldungen, Werbe-Seiten zu bestimmten Produkten (Hewlett Packard) u.a. Hierbei achtete ich darauf, keine Unterseiten der Portale der Suchmaschinen zu nehmen. Es sind sowohl Hauptseiten (Homepage) als auch Seiten, die tiefer im Verzeichnisbaum liegen (Position einer Html-Seite). Einige Fragen sind allgemein gefasst, andere spezifisch. Die Fragen sind thematisch in 4 Kategorien eingeteilt (Tabelle). Die Tabelle
ist in folgende Bestandteile gegliedert: die URLs der zu suchenden Seiten
(Known-Items); die Prozedur (Kombination arabischer Suchwörter), mit
der die Seite gesucht werden soll; die Übersetzung der Suchwörter;
Datum der Seite (falls bekannt); Sprache, in der der Titel der Webseite
in der Kopfzeile des Browsers erscheint bzw. mit der der Titel im Head
geschrieben ist, welches aus dem Quelltext ersichtlich ist (Ta steht für
arabischen Titel, Te für englischen Titel); Angaben dazu, ob die Zielseite
unter den ersten 20 Treffern (Cutt-Off-Wert) gefunden wurde oder nicht
(- steht für nicht gefunden, x für gefunden) und schließlich
die Trefferzahl in Klammern.
4.1.1. Testanfragen der Known-Item-Untersuchung Nachrichten - Gesucht wird eine Meldung über die Fluten in Deutschland, derDie Suchergebnisse sind qualitativ sowie quantitativ sehr unterschiedlich. So existieren bei einigen Suchmaschinen wie Ajeeb und Arabvista ein differenziertes Angebot an Befehlen und diversen Möglichkeiten der Feldsuche, andere wie Ayna bieten kaum Befehle an. Der Datenbestand, auf den die Suchmaschinen zurückgreifen, ist außerdem sehr unterschiedlich. Die größte Availability erreicht Google mit 100 Prozent, mit großem Abstand folgen Alltheweb mit 45%, Ayna mit 22,5 %, gefolgt von Yahoo mit 10 % und Arabvista 5 %. 4.1.2. Detailergebnisse der Known-Item-Analyse (Tabelle) Mit ganz speziellen Seiten, die auch sonst mit Sicherheit auf keinem der größeren Portale zu finden sind (z. B. Werbung einer weniger bekannten Firma wie Nibco, Verzeichnis der Ergebnisse der WM-Spiele von BBC, Satzung des Vereins IBN RUSHD, arabische Homepage von John Mitchell, Bericht über die Aufführung von King Lear auf dem Festival von Jarash in Jordanien, Erklärung des Begriffs "GPS Global Positioning Overview", Fetwa, die zum Boykott amerikanischer und israelischer Produkte aufruft) sollten jegliche Redundanzen vermieden werden und die eindeutige Findung der Seiten durch die gezielte Suchfrage garantiert sein. Bei diesen sehr gezielten Suchfragen nahm ich an, daß die Trefferzahl gering ausfallen würde. Befinden sich diese Seiten trotzdem unter der Treffermenge, kann man auf eine hohe Datenbasis schließen, auf die die Suchmaschine zurückgreift. Bei speziellen Webseiten schnitt Google mit 100% Trefferzahl ab (6 Treffer von 6 speziellen Fragen), gefolgt von Alltheweb mit 33% (2 Treffer von 6 Fragen), die restlichen Suchmaschinen konnten die gesuchte Seite nicht finden. (Tabelle) Bei schwierigeren Aufgaben versuchte ich es in Kombination verschiedener Wörter (Suchworterweiterung in 2. und 3. Zeile)., was in den meisten Fällen kein besseres Ergebnis brachte. Wenn die Suchmaschine die Zieldatei bei mehreren Suchprozeduren (Wortkombinationen) mehrfach gefunden hatte, wie bei Google, zählte dies selbstverständlich nur einmal (Tabelle). Der Bericht über eine Studie der Hampshire University, in der die Zahl der zivilen Todesopfer in Afghanistan mit der Zahl der Opfer der Anschläge vom 11. September verglichen werden, oder eine Streitschrift zur Verteidigung des zeitgenössischen Dichters Adonis (Suche über exakten Titel) zählen auch eher zu den spezifischeren Fragen. Der Suchende muß seine Frage so stellen, daß diese Seiten (mit einem viel diskutierten Thema: 11. September, Adonis und seine Kritiker) auffindbar sind. Über das Leben des Satirikers al-Jahiz gibt es viele Seiten, wir wollten aber die, worin vorkommt, daß er in seiner Kindheit vom "Verkauf von Brot und Fisch" lebte (Tabelle). Mit der Suche nach der relativ neuen Homepage des berühmten Theaterautors
Bakathir (1910-1969) sollte das Ranking geprüft werden. Bewusst wurde
das Suchwort auf dem Namen des Autors eingegrenzt, um zu sehen, ob das
System von selbst unter erwartet vielen Treffern die Homepage an erster
Stelle in der Rangordnung setzt. Nur bei Google und Alltheweb befand sich
die Homepage ganz am Anfang der 20 ersten Treffer. Mit erstaunlicher Treffsicherheit
"verstehen" diese beiden Suchmaschinen bei einer vagen Fragenformulierung
"Ali Ahmad Bakathir" "den Kern" der Frage.
Known-Items mit aktuellen Inhalt (Nachrichtenmeldung über die Fluten
in China, der Tschechoslowakei und Deutschland, den Jahresbericht einer
kuwaitischen Bank, Fetwa eines islamischen Gelehrten mit dem Aufruf zum
Boykott amerikanischer und israelischer Produkte) sollen vor allem prüfen,
wie gut die Suchmaschinen ihren Datenbestand aktualisiert. Hier schnitten
alle Suchmaschinen - mit Ausnahme von Google - gleich schlecht ab (Tabelle).
Gesucht sollte auch nach Webseiten, auf die man von möglichst vielen Portalen aus durch Links hinkommt. Sie sollten trotzdem spezieller Natur sein (sonst wird man sie ja schließlich nicht finden). Ein Beispiel wäre die Werbung von Nokia für arabische Melodien ihres Mobiles zum downloaden. Das Ergebnis war jedoch dürftig, wieder fanden die Seite nur Google und Alltheweb (Tabelle). Es ist nicht so einfach, festzustellen, ob eine Seite über genügend Website-Referrers verfügt (Verlinkungen führen zu dieser Webseite, aber nicht notwendigerweise umgekehrt) und somit für den Test geeignet sind. Eine führende Zeitung oder Fernsehstation (der Link zur Startseite von al-Jazeera TV Channel befindet sich beispielsweise auf zahlreichen Portalen) wollte ich deshalb nicht nehmen, da diese sich wiederum in Unterseiten so tief verzweigt und über ein breites Informationsangebot verfügt, so daß ein Treffer der gewünschten Zielseite meistens verfehlt. Außerdem werden die Texte auf der Homepage stündlich aktualisiert, die Suche nach einem Stichwort mag an den einen Tag zu einer gewissen Stunde funktionieren, an dem nächsten Tag schon nicht mehr. Homepages von Portalen eignen sich daher nicht als Known-Item. Die Ranking-Kriterien der Webwerkzeuge lassen zu wünschen übrig.
Man gewinnt den Eindruck, dass arabische Suchmaschinen zuerst in bestimmten
Quellen suchen und die Treffer eventuell nach einem Quellen-abhängigen
Ranking-Prinzip auflisten (Zeitungen, Portale von Geschäftspartnern
in den Golfstaaten). Bei Ayna z.B. tauchen immer wieder Artikel aus www.asharqalawsat.com,
www.islamweb.net,
www.aljazeera.net,
www.albayan.co.ae,
www.alriyadh.com.sa
auf. Bei Arabvista sind es www.maraya.net,
www.islamweb.net.
www.albayan.co.ae,
www.suhuf.net,
www.Qaradawi.net,
www.sirah.al-islam.com,
www.rafid.net,
www.asharqalawsat.com,
www.khayma.com,
www.naseej.com
etc. Ayna scheint eher presseorientiert zu sein, Arabvista auch, ist aber
zudem islamisch ausgeprägt und orientiert sich an den Golfstaaten.
Es ließ sich kein Zusammenhang erkennen zwischen der Position einer HTML-Seite hinsichtlich ihrer Hierarchie (Tiefe im Verzeichnisbaum) und ihrer Availability. Bei sehr vielen Webseiten mit eingebauten Frames ist es störend, daß die Leisten der Frames zum auf und abblättern des Bildes links sind. Arabische User schreiben zwar von rechts nach links, sie sind aber keine Linkshänder. Die Maus liegt rechts und besser wäre daher, wenn die Frames auch rechts stünden. Aus 20 Suchfragen nach Known-Items lässt sich natürlich nicht
auf die "wahre" Abdeckung des gesamten arabischen Webs schließen.
Trotzdem deckt Google offenbar beachtliche Mengen der arabischen Webseiten
ab. Mit 100 % Availability schneidet Google sehr gut ab, gefolgt von Alltheweb.
Bei der kleinen Datenbasis der restlichen Suchmaschinen dürften unsere
Ergebnisse dennoch realistisch sein. Bedauerlicherweise konnte MSN Arabic
nicht mehr in die Untersuchung mit aufgenommen werden. Dies sollte in einem
wiederholten Test unbedingt nachgeholt werden.
5. Zusammenfassung und Schluß Ziel der Arbeit ist es gewesen, einen allgemeinen Überblick über
das vorhandene Angebot arabischer Webseiten und die Möglichkeiten
des Recherchierens im Internet zu schaffen. Der Umfang dieser Arbeit erlaubte
nur eine qualitative Auswertungstechnik, keine quantitative. Unter
Berücksichtigung der Probleme der arabischen Sprache wurden Tests
durchgeführt, die zum Teil die bisherigen Forschungsergebnisse über
die durch komplexe Morphologie und Häufung der Präfix-Bildungen
entstehenden Retrievalprobleme bestätigt haben. Auch in dieser Arbeit
wurde klar, daß eine arabische Suchmaschine unbedingt eine Linkstrunkierung
erlauben muß, um eine optimale Trefferquote zu bekommen. Ebenso wurde
klar, dass die Entwicklung eines Systems, das die Suche nach Wortstämmen
und Wurzeln erlaubt, für die wissenschaftliche Dokumentation von unschätzbaren
Wert sein könnte. Ein solches Retrievalsystem gibt es derzeitig im
kleinen, die Suchmaschine von www.ajeeb.com, entwickelt von Sakhr für
die Suche im eigenen Web-Katalog Dalil. Wie die Known-Item-Analyse zeigt,
steht Google von der Datenmenge und Genauigkeit der Suche an vorderster
Stelle, gefolgt von Alltheweb und arabia.com. Angesichts der Tatsache,
daß ein Spider nicht mit einem Webkatalog zu vergleichen ist, sollten
die schlechteren Ergebnisse von Ayna und Arabvista relativiert werden.
6. Bibliographie Abu-Salem, Hani: A Microcomputer based Arabic bibliographic information retrieval systems with relational thesauri. Unpublished doctoral dissertation, Computer Science Department, llinois Institute of Technology, Chicago 1992. Abu-Salem, Hani & al-Omari, Mahmoud & Evens, Martha W.: "Stemming Methodologies Over Individual Query Words for an Arabic Information Retrieval System" in Journal of the American Society for Information Science 50 Heft 6(1999): 524-529. Ashoor, Saleh M.: "Planning the electronic library - suggested guidelines for the Arabian Gulf region" in The Electronic Library, 18 Heft 1(2000): 29-39. Boualem, Malek & Stéphane Harié: "MtScript: A multilingual text editor" in Computers and the Humanities 31(1997): 135-151. Clews, John, "Information handling in foreign languages and scripts" in Journal of Document and Text Management 2 Heft 3(1994): 186-200. Dresel, Robin, Daniel Hörnig (et al): "Evaluation deutscher Web-Suchwerkzeuge" in nfd 52 Heft 7(Oktober/November 2001): 381-392. Fahrenkrog, Gabriele, Oliver Marahrens & Ewald Bittner: "Des Surfers Leid, des Surfers Freud: Web Usability und wie man sie testet" in nfd 53(März 2002): 73-81. Al-Fedaghi, S. & Al-Anzi, F.: "A new algorithm to generate Arabic root-pattern forms." Proseedings of the 11th National Computer Conference and Exhibition (März 1989): 391-400. Feiler, Gil: "Middle East Online Sources: Problems and solutions from a database builder and user" in Online Information 98 Proceedings: 22nd International Online Information Meeting, London 8-10 December 1998: 207-211. Fischer, Wolfdietrich: Grammatik des klassischen Arabisch. Otto Harrassowitz, Wiesbaden 1987. Hamdorf, Kai: "Wer katalogisiert das Web? Dokumentarische Arbeit als Big Business und Freiwilligen-Projekt" in nfd 52 Heft 5(Juli/August 2001): 263-270. Harms, Ilse & Werner Schweibenz: "Testing Web Usability" in Information Management & Consulting 15 Heft 3(2000): 61-66, Hilal, Y.: Morphological analysis of Arabic speech. Computer Proceedings of the Arabic Language (Workshop Papers), 1(April 1985). Hilal, Y.: "Automatic processing of the Arabic language and its application" in Proceedings of the First Kuwait Computer Conference (März 1989): 145-171. Hill, Carole & Karen D. Loch (et al): "A Qualitative Assessment of Arab Culture and Information Technology Trensfer" in Journal of Global Information Management, 6 Heft 3(1998): 29-38. Hmeidi, Ismail: "Design and Implementation of Automatic Indexing for Information Retrieval with Arabic Documents", in Journal of the American Society for Information Science 48 Heft 10(Oktober 1997): 867-881. Houissa, Ali: "The Internet predicament in the Middle East and North Africa: Connectivity, access and censorship" in Journal of Librarianship and Information Science, 32 Heft 2(Juni 2000): 56-63. Keen, E.M. "Prospects for classification suggested by evaluation tests carried out 1957-1970" in A. Malthby (Ed), Classification in the 1970s, Hamden CT, 1972, S. 193-210. Al-Kharashi, I.: Micro-Airs: Microcomputer based Arabic information retrieval systems, comparing words, stems, roots as index terms. Unpublished doctoral dissertation, Computer Science Department, Illinois Institute of Technology, Chicago 1991. Al-Kharashi, I. Evens, M.: "Words, stems and roots in an Arabic information retrieval system," Journal of the American Society for Information Science 45 (1994): 548-560. Moukdad, Haidar: "Information Retrieval from Full-Text Arabic Databases: Can Search Engines Designed for English Do the Job?" in Libri 51(2001): 63-74. Petras, Vivien & Matthias Bank: "Vergleich der Suchmaschinen AltaVista und HotBot bezüglich Treffermengen und Aktualität" in nfd 49(1998): 453-458. Qari, Abdulghafoor A.: "Electronic Library and Library and Information Science Departments in the Arabian Gulf Region", in Journal of Education for Library and Information Science 39 Heft 1(1998): 28-37. Ray, Kenneth and James R. Driscoll: "New Directions for Microcomputer-Based Systems" in The Magazine of Database Reference and Review 13 Heft 4(1990): 60-64. Rose, Gregory & Straub, Detmar: "Predicting General IT Use: Applying TAM to the Arabic World" in Journal of Global Information Management 6, Heft 3(1998): 39-46. Salton, G. The SMART retrieval sytenm experiments in automatic document processing. Englewood Cliffs 1972. Salton, G. A Theory of Indexing. Regional Conference Series in Applied Mathematics. Nr 18, Philadelphia 1975. Salton, G. Automatic Text Processing: The transformation, analysis, and retrieval of information by computer, Reading 1989 Salton, G. & McGill, M.J. (1983). Introduction to Modern Information Retrieval. New York 1983. Schulz, Ursula: "Usability-Kriterien für Suchmaschinen" in nfd 52(Dezember 2001): 467-469. Al-Shalabi, R. Design and Implementation of an Arabic morphological system to support natural language processing. Unpublished doctoral dissertation, Computer Science Department, Illinois Institute of Technology, Chicago 1996. Vassie, Roderic: "Improving access in bilingual, biscript catalogues through Arabised authority control" in Online Information Review, 24 Heft 6(2000): 420-428. Vassie, Roderic: "MARC time: the future of Arabic bibliography" in Information Development, 6 Heft 2(2000). Wien, C. "Nine problems concerning Arabic" in Byrum, J.D. Jr. and Madison, O. (Eds): Multi-script, multi-lingual, Multi-character Issues for the Online Environment, München 1998. Yahya, A.H.: On the complexity of the initial stages of Arabic text processing. Birzeit University, Birzeit, West Bank/Israel 1989. nfd= Information Wissenschaft und Praxis, Nachrichten für Dokumentation
Web Evaluation & Usability:
Einzelne Online-Archive: Al-Hayat:
Al-Quds
Wählt man ein Land in der Länderpalette, dann erscheinen alle
aktuellen Artikel, die in der Datenbank mit dem Ländercode versehen
sind, in chronologischer Reihenfolge (bis ca. drei Wochen zurück).
Ferner kann man über die Rubrikensuche die Artikel der aktuellen Tagesausgabe
nach Themen einsehen. Leider ist diese drei Funktionen (Suche im Volltext,
nach Ländern und Rubriken) separate Funktionen, die nicht miteinander
kombinierbar sein.
www.awse.com
Kultur:
www.darelkotob.org
www.arabtime.com
Arabische Zeitungen
ENDNOTEN 1) Kontaktanzeigen sind z.B. möglich unter http://www.zawgaty.com/ oder http://www.ezawaj.com/. 2) z. B. www.eWazifa.com. 3) Zur Entwicklung von IT und Internet Usage in der arabischen Welt siehe Houissa, Ali: "The Internet predicament in the Middle East and North Africa: Connectivity, access and censorship" in Journal of Librarianship and Information Science, 32 Heft 2(Juni 2000): 56-63; Hill, Carole & Karen D. Loch (et al): "A Qualitative Assessment of Arab Culture and Information Technology Trensfer" in Journal of Global Information Management 6 Heft 3(1998): 29-38; Rose, Gregory & Straub, Detmar: "Predicting General IT Use: Applying TAM to the Arabic World" in Journal of Global Information Management 6, Heft 3(1998): 39-46. 4) Gil Feiler stellt die Schwierigkeiten dar, mit denen Geschäftsleute, die vorwiegend Kontakte zu Einrichtungen und Firmen im Nahen Posten führen, konfrontiert sind, wenn Sie auf Online-Quellen zugreifen wollen. G. Filer stellt die verlässlichsten, genausten und aktuellsten Quellen zusammen und diskutiert Availability und inhaltsbezogene Vorteile und Mängel dieser Quellen (staatliche kontrollierte Press, Verlässlichkeit), Feiler, Gil: "Middle East Online Sources: Problems and solutions from a database builder and user" in Online Information 98 Proceedings: 22nd International Online Information Meeting, London 8-10 December 1998: 207-211. 5) Houissa, Ali: "The Internet predicament in the Middle East and North Africa: Connectivity, access and censorship" in Journal of Librarianship and Information Science, 32 Heft 2(Juni 2000): 56-63. Houissas Artikel ist informativ, leider etwas unkritisch und nicht mehr ganz aktuell (seine tabellarischen Darstellungen gehen nur bis 1998 und viele Links zu den von ihm besprochenen Suchmaschinen sind nicht mehr aktiv, wie www.arabiaweb.com, www.arabia.On.Line (heute www.arabia.com) und das iranische www.ankaboot.com. 6) Erhältlich unter http://home.netscape.com/plugins/jvm-intl.html. Siehe auch http://home.netscape.com/eng/intl/ns6-jrefontinfo.html. 7) Näheres siehe http://www.hf-fak.uib.no/Institutter/smi/ksv/arabicmac.html#cimm
8) Literatur zu arabischen Textverarbeitung und Schriftzeichen-Problem siehe Boualem, Malek & Stéphane Harié: "MtScript: A multilingual text editor" in Computers and the Humanities 31(1997): 135-151; Clews, John, "Information handling in foreign languages and scripts" in Journal of Document and Text Management 2 Heft 3(1994): 186-200; Wien, C. "Nine problems concerning Arabic" in Byrum, J.D. Jr. and Madison, O. (Eds): Multi-script, multi-lingual, Multi-character Issues for the Online Environment, München 1998. 9) Fischer, Wolfdietrich: Grammatik des klassischen Arabisch. Otto Harrassowitz, Wiesbaden 1987. 10) Abu-Salem, Hani & al-Omari, Mahmoud & Evens, Martha W.: "Stemming Methodologies Over Individual Query Words for an Arabic Information Retrieval System" in Journal of the American Society for Information Science 50 Heft 6(1999): 524-529. Moukdad, Haidar, "Information Retrieval from Full-Text Arabic Databases: Can Search Engines Designed for English Do the Job?" in Libri 51(2001): 63-74. 11) Abu-Salem, H. (1992): A Microcomputer based Arabic bibliographic information retrieval systems with relational thesauri. Unpublished doctoral dissertation, Computer Science Department, llinois Institute of Technology, Chicago 1992. Kharasi und Evans (1994) führten 29 Suchfragen mit einer Database von 355 Einträgen der Bibliothek King Abdul-Aziz City for Science and Technology durch. Die Datensätze enthielten nur Buchtitel, keine Abstracts, siehe Al-Kharashi, I. Evens, M.: "Words, stems and roots in an Arabic information retrieval system", Journal of the American Society for Information Science 45 (1994): 548-560. Hmeidi wiederholt den gleichen Test noch einmal mit Abstracts. 12) Hmeidi, Ismail: "Design and Implementation of Automatic Indexing for Information Retrieval with Arabic Documents", in Journal of the American Society for Information Science 48 Heft 10(Oktober 1997): 867-881. 13) Yahya, A.H. On the complexity of the initial stages of Arabic text processing. Birzeit University, Birzeit, West Bank/Israel 1989, S. 1-7 zitiert in Hmeidi, Ismail: "Design and Implementation of Automatic Indexing for Information Retrieval with Arabic Documents", in Journal of the American Society for Information Science 48 Heft 10(Oktober 1997): 867-881. 14) Zur automatischem Indexierung siehe Salton, G. The SMART retrieval system experiments in automatic document processing, Englewood Cliffs 1972; Salton, G. A Theory of Indexing. Regional Conference Series in Applied Mathematics. Nr 18, Philadelphia 1975; Salton, G. Automatic Text Processing: The transformation, analysis, and retrieval of information by computer, Reading 1989; Salton, G. & McGill, M.J. (1983). Introduction to Modern Information Retrieval. New York 1983. 15) Al-Fedaghi, S. & Al-Anzi, F. "A new algorithm to generate Arabic root-pattern forms." Proseedings of the 11th National Computer Conference and Exhibition (März 1989): 391-400. 16) Hilal, Y. "Morphological analysis of
Arabic speech. Computer Proceedings of the Arabic Language" (Workshop Papers),
Vol I. April 1985.
17) Al-Shalabi, R. Design and Implementation of an Arabic morphological system to support natural language processing, Unpublished doctoral dissertation, Computer Science Department, Illinois Institute of Technology, Chicago 1996. 18) Abu-Salem, Hani & al-Omari, Mahmoud & Evens, Martha W.: "Stemming Methodologies Over Individual Query Words for an Arabic Information Retrieval System" in Journal of the American Society for Information Science 50 Heft 6(1999): 524-529. 19) Qari bemängelt die schlechte Ausbildung von Bibliothekaren und Dokumentaren in der Region am Golf, Qari, Abdulghafoor A.: "Electronic Library and Library and Information Science Departments in the Arabian Gulf Region", Journal of Education for Library and Information Science 39 Heft 1(1998): 28-37. 20) Literatur zur Katalogisierung, Indexierung und zum Recherchieren in arabischen Bibliotheken siehe Ashoor, Saleh M.: "Planning the electronic library - suggested guidelines for the Arabian Gulf region" in The Electronic Library, 18 Heft 1(2000): 29-39; Qari, Abdulghafoor A.: "Electronic Library and Library and Information Science Departments in the Arabian Gulf Region", in Journal of Education for Library and Information Science 39 Heft 1(1998): 28-37; Vassie, Roderic: "Improving access in bilingual, biscript catalogues through Arabised authority control" in Online Information Review, 24 Heft 6(2000): 420-428; Vassie, Roderic: "MARC time: the future of Arabic bibliography" in Information Development, 6 Heft 2(2000). Keen, E.M. "Prospects for classification suggested by evaluation tests carried out 1957-1970" in A. Malthby (Ed),Classification in the 1970s, Hamden CT, 1972, S. 193-210. Vassie rät dringend zur kontrollierten Arabisierung von Deskriptoren und Thesauri auch bei englischen Titeln, Vassie, Roderic: "Improving access in bilingual, biscript catalogues through Arabised authority control" in Online Information Review, 24 Heft 6(2000): 420-428. Vassie ist auch für die Übername des USMARC (der Machine-Readable Bibliographic Information Communitee), das für die arabische Bibliothek ins Arabische übersetzt werden sollte. 21) Falls Probleme beim downloaden der Homepage entstehen, kann man www.arabia.com/English oder www.arabia.com/Arabic wählen. 22) Koransuren mit klassischen Interpretationen (tafsir) sind auch erhältlich unter http://quran.al-islam.com/arb/Default.asp. 23) Siehe http://ads.ayna.com/stats/rankings/SA/, ebenso, http://ads.ayna.com/stats/rankings/, Rev. 1.9.2002. 24) Die Suchwörter Zensur und Opposition, verknüpft mit ausgeschrienen AND (al-mu'arada wa-r-raqaba), mit Einstellung auf unveränderter Wortform ergab 28273 Treffer, ohne Verknüpfung mit AND weniger (26965), obwohl es mehr sein müsste. 25) Weitere Portale mit Suchmaschinen www.islamweb.net, http://www.alsaha.com/, http://arabic.planetarabia.com/content/, http://awalnet.com/arabic/, http://www.rayig.com/, http://www.almirkaz.com, http://www.egypty.com/, http://www.bab.com/index3.cfm, http://www.danah.com/, http://www.kuwaitsun.com/, http://www.nesnas.com/, http://www.newmar.net/arab/, http://www.hollypal.com/, http://www.dir.it.go.com, http://www.geocities.com/sifisearch/, http://arabic.planetarabia.com/. 26) Dresel, Robin, Daniel Hörnig (et al): "Evaluation deutscher Web-Suchwerkzeuge" in nfd 52 Heft 7(Oktober/November 2001): 387-389. 27) Zur Evaluation von Suchmaschinen und
Web Usability:
28) Dresel. Robin, Daniel Hörnig (et
al): "Evaluation deutscher Web-Suchwerkzeuge" in nfd 52 Heft 7(Oktober/November
2001): 387ff; Stock, Mechtild; Stock, Wolfgang: "Internet-Suchwerkzeuge
im Vergleich. Retrievaltests mit Known Item Searches" in Password
Nr. 11(2000): 23-31.
Die Autorin
Zurück
zum Inhalt dieser Ausgabe
|