Programme und Fallbeispiele zur automatisierten Extraktion von Daten aus Webseiten

Begonnen wird mit der Beschreibung der Vorgänge beim Internetsurfen. Dabei wird auf das Hypertext Transfer Protocol (HTTP) und speziell auf dessen Funktionseinheiten Client und Server eingegangen. Weiter wird empirisch eine Klassifizierung von Webseiten vorgenommen. In weiterer Folge werden diverse Tools, welche für die Automatisierung erforderlich sind, besprochen. Diese werden in die Kategorien „Tools zum Abruf“ und „Tools zur Verarbeitung“ eingeteilt.

Nach der theoretischen Beschreibung der einzelnen Tools folgt die Analyse eines Automa-tisierungsprozesses auf Basis zweier Fallbeispiele. Dabei werden die Sprechstundenliste des BRG19 sowie eine individuelle Liste an gewählten Modulen aus den im Vorfeld herunter-geladenen Dateien im Format Hypertext Markup Language (HTML) extrahiert und in Dateien im Format Comma-separated values (CSV) umgewandelt.

Abschließend werden Bewertungen und Schlussfolgerungen den Automatisierungsprozess betreffend angestellt, die analysieren, welche Kenntnisse für eine derartige Automatisierung erforderlich sind und inwiefern eine Automatisierung sinnvoll beziehungsweise nicht sinnvoll ist.

Download (PDF)

Preisträger

Rafael Vrecar

Schulfach

Informatik

Betreuende Universität

Universität Wien

Ausgezeichnete Arbeiten

2018, Chemie, 1. Platz,
Carolin Kohl, Universität zu Köln

Funktionsweise und Aufbau organischer Leuchtdioden und deren Vor- und Nachteile gegenüber herkömmlichen Leuchtmitteln

mehr info
2011, Biologie, 1. Platz,
Thorben Royeck, Ruhr-Universität Bochum

Beeinflussung der Konzentrationsfähigkeit durch Einatmen von Duftstoffen

mehr info
2015, Mathematik, 1. Platz,
Jana Göken, Carl von Ossietzky Universität Oldenburg

Lösungen von Gleichungen höheren Grades

mehr info