Programme und Fallbeispiele zur automatisierten Extraktion von Daten aus Webseiten

Begonnen wird mit der Beschreibung der Vorgänge beim Internetsurfen. Dabei wird auf das Hypertext Transfer Protocol (HTTP) und speziell auf dessen Funktionseinheiten Client und Server eingegangen. Weiter wird empirisch eine Klassifizierung von Webseiten vorgenommen. In weiterer Folge werden diverse Tools, welche für die Automatisierung erforderlich sind, besprochen. Diese werden in die Kategorien „Tools zum Abruf“ und „Tools zur Verarbeitung“ eingeteilt.

Nach der theoretischen Beschreibung der einzelnen Tools folgt die Analyse eines Automa-tisierungsprozesses auf Basis zweier Fallbeispiele. Dabei werden die Sprechstundenliste des BRG19 sowie eine individuelle Liste an gewählten Modulen aus den im Vorfeld herunter-geladenen Dateien im Format Hypertext Markup Language (HTML) extrahiert und in Dateien im Format Comma-separated values (CSV) umgewandelt.

Abschließend werden Bewertungen und Schlussfolgerungen den Automatisierungsprozess betreffend angestellt, die analysieren, welche Kenntnisse für eine derartige Automatisierung erforderlich sind und inwiefern eine Automatisierung sinnvoll beziehungsweise nicht sinnvoll ist.

Download (PDF)

Preisträger

Rafael Vrecar

Schulfach

Informatik

Betreuende Universität

Universität Wien

Ausgezeichnete Arbeiten

2017, Physik, 2. Platz,
Luca Brilhaus, Westfälische Wilhelms-Universität Münster

Experimentelle Erzeugung von Lissajous-Figuren ganz einfach?

mehr info
2012, Mathematik, 1. Platz,
Lukas von Stumberg, Ludwig-Maximilians-Universität München

Möglichkeiten der Darstellung von Julia-Mengen und Apfelmännchen

mehr info
2016, Chemie, 2. Platz,
Nina Hochmeister, Universität Wien

Zucker in ausgewählten Cola-Produkten

mehr info