Wikipedia:Download
aus Wikipedia, der freien Enzyklopädie
Abkürzung: WP:DO, WP:DL
Die Wikipedia kann nicht nur online gelesen werden, es besteht auch die Möglichkeit, sich die gesamte Wikipedia auf den eigenen Rechner herunterzuladen, um offline darin zu lesen.
Dies ist auf verschiedene Weise möglich:
1. Ein aktuelles und voll funktionsfähiges Abbild von Wikipedia setzt ein installiertes MediaWiki voraus, die PHP-Software, welche Wikipedia nutzt. Das Einrichtung ist allerdings relativ kompliziert und eher etwas für fortgeschrittene Benutzer. Das Vorgehen ist nachstehend beschrieben.
2. Zum einfachen Offline-Lesen der deutschen Wikipedia empfiehlt sich die DVD-Version, welche es auch zum freien Herunterladen gibt.
3. Verfügbar ist auch eine HTML-Version der Wikipedia ohne Bilder auf dem Stand vom Juni 2008.
3. Kompakter und ebenfalls vergleichsweise einfach lassen sich die aktuellen Datenbank-Snapshots mit WikiTaxi offline lesen und durchsuchen. Hierzu finden sich ebenfalls nachstehend einige Informationen.
4. Wie auf Wikipedia:Unterwegs beschrieben ist, existieren verschiedene Versionen für Offline-Leseprogramme wie Mobipocket oder Tomeraider, welche sowohl für verschiedene Betriebssysteme portabler Geräte wie teilweise auch für Windows verfügbar sind.
4.1. So existiert beispielsweise eine Version auf Mobipocket (WPMP)-Basis (Download) (ohne Bilder) auf dem Stand vom Juni/August 2008 (Mirror).
4.2. Es ist auch möglich, die Wikipedia im TomeRaider 3-Format offline zu nutzen. Die aktuelle Version ohne Bilder ist vom Oktober 2008. Eine Version inklusive Bilder vom Mai 2007 ist ebenfalls (dort) erhältlich. (Mirror der Version vom Juni 2008).
Inhaltsverzeichnis |
[Bearbeiten] Einrichtung eine auf MediaWiki basierenden Offline-Version von Wikipedia
Hier eine ausführliche Anleitung für Windows-Nutzer ohne jedes Vorwissen für die XML-Version - vom blanken Desktop bis zur fertigen Wikipedia (man benötigt einen Internetanschluss an dem Computer, an dem man die Offline-Wikipedia installieren möchte, oder transportiert die Daten per USB-Stick oder CD auf den Offline-Rechner).
[Bearbeiten] Herunterladen aller Seiten als XML-Dump
Die gewünschten Datensätze herunterladen. Am einfachsten ist es mit dem Dump der aktuellen Versionen der Artikel und einigen anderen Seiten: dewiki-??-pages-articles.xml (Datei). (RSS-Feed)
[Bearbeiten] Import in MySQL
Der Import der XML-Daten kann entweder über das langsame PHP-Skript importDump.php der MediaWiki-Software erfolgen (liegt im Verzeichnis maintenance/ der MediaWiki Installation), oder über das etwas schneller arbeitende Java-Paket MWDumper. Dieses benötigt eine funktionierende Java-Installation. Der Import erfolgt dann mit folgendem Befehl:
java -jar mwdumper.jar --format=sql:1.5 pages_meta_current.xml.bz2 | mysql -u <username> -p<password> <databasename>
Es ist wichtig, dass die Datenbanktabellen bis auf site_stats, user, user_groups und interwiki vollständig leer sind (TRUNCATE TABLE...), da sonst der Import fehlschlagen kann. Sollte ein Fehler auftreten, wird MWDumper dennoch weiter fröhlich das XML in SQL konvertieren, aber der mySQL-Server importiert nicht mehr. In diesem Fall prüfen, ob wirklich alle Tabellen leer sind, und von vorn beginnen.
Damit hat man die Artikelseiten in die Datenbank importiert und kann im Wiki lesen.
[Bearbeiten] Linktabellen bauen
Für viele interessante Datenbankabfragen sind Informationen darüber notwendig, welcher Artikel auf welche anderen Ressourcen verlinkt. Die Selbsterstellung dieser Linktabellen ist allerdings ein zeitaufwendiger Prozess.
php refreshLinks.php
In seiner gegenwärtigen Fassung ist dieses Skript ein riesiges Speicherleck. Sobald der Rechner wegen Speichermangels auf die Auslagerungsdatei zurückgreifen muss, geht die ohnehin schon niedrige Ausführungsgeschwindigkeit des Skripts immer rascher gegen Null. Die Linktabelle sollte daher abschnittsweise erstellt werden, indem das Skript zwischendrin abgebrochen wird, man sich die letzte Position merkt und folgendermaßen wieder startet:
php refreshLinks.php -- 228600
Auf diese Weise wird der unnötigerweise verbrauchte Speicher wieder freigegeben und die Erstellung der Linktabelle bei Artikel Nr. 228600 fortgesetzt.
Optional: Textindex
Wenn man Volltextsuchen durchführen möchte, muss ein Textindex erzeugt werden. Dies geschieht über
php rebuildtextindex.php
Wikipedia selbst arbeitet übrigens nicht mit dieser relativ langsamen MySQL-basierten Suche, sondern verwendet Apache Lucene.
Optional: Recentchanges aktualisieren
Wenn man wissen möchte, bis zu welcher Uhrzeit der installierte Datenbank-Dump reicht, kann man kurz
php rebuildrecentchanges.php
sagen, um die Seite "Letzte Änderungen" zu aktualisieren.
Optional: Artikelanzahl neu berechnen
Die Anzahl der im Wiki vorhandenen Artikel und einige andere Zahlen können mit initStats.php neu berechnet werden:
php initStats.php
[Bearbeiten] Ein Wort zur Hardware
Die Wikipedia-Datenbank stellt mittlerweile recht hohe Ansprüche an leistungsfähige Hardware. Zur besseren Einschätzung daher einige Erfahrungen aus der Praxis: Wenn man nur lesen möchte, genügt ein Rechner der 1-GHz-Klasse mit wenig RAM. Für anspruchsvollere Aufgaben wie Wartungsseiten, SQL-Abfragen, selbst gebaute Linktabellen oder den Import der old-Tabelle sollte man aber eine bessere Hardware zur Verfügung stellen: 1 GB RAM oder mehr und ein möglichst schneller Prozessor mit mehr als 3 GHz oder Multicore-Prozessoren sind sehr sinnvoll, ebenso wie schnelle Festplatten (am besten als RAID). Die Tabellen sollten im MySQL-Server möglichst als InnoDB abgelegt sein, damit die Antwortzeiten kürzer werden (allerdings auf Kosten des Speicherverbrauchs). Anmerkung von Benutzer:Echoray: Diese Faustregel basiert noch auf Erfahrung mit der alten MediaWiki-Software 1.3 und MySQL 4.0. Mit MyISAM waren die Linktabellen einfach zu ineffektiv. Ich habe den Verdacht, dass der Rückgriff auf den Filesystem-Cache des Betriebssystems einfach nicht so gut ist wie der dedizierte Cache, den InnoDB bietet. Das kann mit neuerer Software inzwischen anders sein. Jemand könnte das mal meßtechnisch erfassen...
[Bearbeiten] Herunterladen einzelner Seiten
Unter Spezial:Export kann man sich einzelne oder mehrere Seiten in XML herunterladen.
[Bearbeiten] Offline-Reader: WikiTaxi
|
WikiTaxi ist ein portabler Offline-Reader für Wikipedia, Wiktionary, Wikiquote, auch in allen verfügbaren Sprachen. Dazu benutzt es die original und vollständigen Texte im Wiki Format, die als Datenbankdump heruntergeladen und dann in eine WikiTaxi-Datenbank importiert werden. So ist WikiTaxi aktuell und leicht auf dem neuesten Stand zu halten. Nach dem Import funktioniert WikiTaxi wie ein HTML-Browser. Die Artikelsuche ist über die Seitennamen möglich. Eine Volltextsuche ist nicht möglich. Da WikiTaxi ohne Installation auskommt, läuft es auch von USB-Sticks, DVDs, externen Festplatten, und Speicherkarten. Sehr schnell, auch mit der riesigen englischen Wikipedia.
Von Bildern wird nur der Beschreibungstext angezeigt; von Formeln nur der Quelltext. |
|||||||||||||||||||||










































