Kapp-Hamburg
Web-Entwicklung & Hosting – Thorben Nissen

Neuer Crawler für TYPO3 CMS

Große TYPO3-Seiten setzen mitlerweile auf Solr um die Suche auf der Website zu realisieren. Solr aufzusetzen, das Schema korrekt einzurichten und das Crawling korrekt zu konfiguieren, bedarf allerdings etwas mehr Aufwand. Des Weiteren ist Solr nach meiner Erfahrung relativ Resourcen hungrig.

Für kleine bis mittlere Seiten wird daher immernoch auf indexed_search gesetzt. Das ist grundsätzlich auch kein Problem. Leider gab es für TYPO3 CMS 8 bisher keine gut funktionierende Crawler-Extension. Die Extension crawler, die bisher häufig für das Crawling von Seiten und Datensätzen eingesetzt wurde, wurde bisher eher notdürftig für CMS 8 gefixt und funktionierte bei mir auch nach 2 Stunden probieren und debuggen noch nicht wie gewünscht. Des Weiteren scheint mir die Entwicklung dabei derzeit auch eher still zu stehen.

Daher habe ich mich entschieden, eine komplett neue Extension zu entwickeln und damit das Thema Crawling von Grund auf neu anzugehen. Im Fokus hatte ich dabei zum einen vollständige Kompatibilität mit CMS 8. Des Weiteren sollte die Extension leicht zu benutzen bzw. einzurichten sein und gleichzeitig Entwicklern genug Möglichkeiten geben ggf. fehlenden Funktionen hinzuzufügen.

Heraus gekommen ist dabei die Extension versatile_crawler. Der Name verspricht hohe Flexibilität. In der ersten Version drückt sich das dadurch aus, dass relativ einfach neue Crawler-Typen hinzugefügt werden können. In der nächsten Version soll es dann auch möglich sein das Indexing, das aktuell fest auf indexed_search zugeschnitten ist, durch eigene Indexer zu erweitern bzw. zu ersetzen. Damit wäre es dann z.B. auch möglich, die Daten in den Solr-Index zu übertragen.

Die Extension befindet sich im TER und auf Packagist. Der Quelltext ist auf GitHub einzusehen. Dort befindet sich im Wiki auch die Dokumentation, die zukünftig noch Informationen zur Erweiterbarkeit ergänzt wird.
Ich hoffe, dass die Extension auch für andere nützlich ist und freue mich auf Feedback dazu.