From 585ddc110a05fe512aaced76e5ffcd40c012af70 Mon Sep 17 00:00:00 2001 From: cmalzer <claudia.malzer@geo.uni-goettingen.de> Date: Wed, 4 Sep 2019 21:06:10 +0200 Subject: [PATCH] update --- Aufgabe/Geocoding.ipynb | 357 ++++++++++++ .../R\303\244umliche Verschneidung.ipynb" | 450 +++++++++++++++ Aufgabe/Versorgungsgrad berechnen.ipynb | 537 ++++++++++++++++++ ...en 1 - if-Anweisungen und Vergleiche.ipynb | 12 +- ... 2 - Schleifen, Listen, Dictionaries.ipynb | 64 +-- Tutorials/Grundlagen 3 - Funktionen.ipynb | 157 +++++ ...=> Grundlagen 4 - Pandas DataFrames.ipynb} | 241 +++++--- 7 files changed, 1693 insertions(+), 125 deletions(-) create mode 100644 Aufgabe/Geocoding.ipynb create mode 100644 "Aufgabe/R\303\244umliche Verschneidung.ipynb" create mode 100644 Aufgabe/Versorgungsgrad berechnen.ipynb create mode 100644 Tutorials/Grundlagen 3 - Funktionen.ipynb rename Tutorials/{Grundlagen 3 - Pandas DataFrames.ipynb => Grundlagen 4 - Pandas DataFrames.ipynb} (67%) diff --git a/Aufgabe/Geocoding.ipynb b/Aufgabe/Geocoding.ipynb new file mode 100644 index 0000000..68e4d22 --- /dev/null +++ b/Aufgabe/Geocoding.ipynb @@ -0,0 +1,357 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "## Geokodierung von Adressdaten" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Genau wie in der originalen Aufgabenstellung sollen zunächst die Adressdaten der Ärzte aus dem Excel-File <b>Ärztedaten_Hamburg.xls</b> (hier in Jupyter im Ordner <b>Daten</b> zu finden) mithilfe eines externen Adress-Geocoders gekodiert werden. Lesen Sie in der untenstehenden Code-Zelle nun die Datei als Excel-File ein. Als Orientierung kann das 3. Tutorial dienen. Lassen Sie sich die ersten paar Zeilen ausgeben." + ] + }, + { + "cell_type": "code", + "execution_count": 21, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " ID Fachgebiet1 Adresse PLZ \\\n", + "0 2 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 22607 \n", + "1 52 Hals-Nasen-Ohrenheilkunde Neuer Wall 43 20354 \n", + "2 102 Hals-Nasen-Ohrenheilkunde Möllner Landstr. 26 a 22111 \n", + "3 125 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 73 22041 \n", + "4 148 Hals-Nasen-Ohrenheilkunde Sand 35 21073 \n", + ".. ... ... ... ... \n", + "131 3947 Hals-Nasen-Ohrenheilkunde Tangstedter Landstr. 77 22415 \n", + "132 3971 Hals-Nasen-Ohrenheilkunde Spitalerstr. 32 20095 \n", + "133 4030 Hals-Nasen-Ohrenheilkunde Erdkampsweg 55 22335 \n", + "134 4042 Hals-Nasen-Ohrenheilkunde Bismarckstr. 115 20253 \n", + "135 4057 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 8 22041 \n", + "\n", + " Privatarzt Stadt Land \n", + "0 NaN Hamburg Germany \n", + "1 NaN Hamburg Germany \n", + "2 NaN Hamburg Germany \n", + "3 NaN Hamburg Germany \n", + "4 NaN Hamburg Germany \n", + ".. ... ... ... \n", + "131 NaN Hamburg Germany \n", + "132 NaN Hamburg Germany \n", + "133 NaN Hamburg Germany \n", + "134 NaN Hamburg Germany \n", + "135 NaN Hamburg Germany \n", + "\n", + "[136 rows x 7 columns]\n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "aerzte = pd.read_excel(open(\"../Daten/Ärztedaten_Hamburg.xls\",'rb'), sheet_name='HNO')\n", + "print(aerzte)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Filtern Sie nun alle Privatärzte aus der Ärzte-Tabelle raus. Selektieren Sie dazu alle Ärzte, die keine Privatärzte sind, und überschreiben Sie den bisherigen DataFrame mit dem neuen Ergebnis. Um herauszufinden, wie Privatärzte gekennzeichnet sind, ist es ggf. nötig, sich die komplette Excel-Tabelle nochmal genauer anzusehen." + ] + }, + { + "cell_type": "code", + "execution_count": 23, + "metadata": {}, + "outputs": [], + "source": [ + " aerzte = aerzte[aerzte.Privatarzt != 'P']" + ] + }, + { + "cell_type": "code", + "execution_count": 24, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " NAME Einwohner geometry\n", + "0 Barmbek-Süd 31360 POLYGON ((568738.5000999998 5936170.3463, 5687...\n", + "1 Duvenstedt 6220 POLYGON ((574154.1001000004 5950369.9463, 5740...\n", + "2 Rissen 14763 POLYGON ((552240.9001000002 5939762.5463, 5522...\n", + "3 Blankenese 12807 POLYGON ((551279.1001000004 5934212.5463, 5507...\n", + "4 Volksdorf 19989 POLYGON ((578633.7001 5943958.3463, 578496.300...\n", + ".. ... ... ...\n", + "95 St. Georg 10279 POLYGON ((568009.5000999998 5934687.146299999,...\n", + "96 Hohenfelde 8904 POLYGON ((566795.1001000004 5935675.9463, 5669...\n", + "97 Altona-Nord 33052 POLYGON ((563605.9812000003 5935419.763699999,...\n", + "98 Sternschanze 7723 POLYGON ((564561.5401999997 5935584.9878, 5644...\n", + "99 Hafen-City 1097 POLYGON ((566813.6781000001 5933346.6083, 5669...\n", + "\n", + "[100 rows x 3 columns]\n" + ] + } + ], + "source": [ + "selected_cols = ['NAME', 'Einwohner', 'geometry']\n", + "stadtteile = stadtteile[selected_cols]\n", + "print(stadtteile)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Die Adressen in der Ärztetabelle sollen nun geokodiert werden, denn wir brauchen die Koordinaten, um sie später als Punkte auf der Karte darzustellen sowie räumliche Verschneidungen durchzuführen. Lassen Sie sich zur Übersicht erstmal die Datentypen der Spalten in der Ärztetabelle anzeigen." + ] + }, + { + "cell_type": "code", + "execution_count": 25, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "ID int64\n", + "Fachgebiet1 object\n", + "Adresse object\n", + "PLZ int64\n", + "Privatarzt object\n", + "Stadt object\n", + "Land object\n", + "dtype: object\n" + ] + } + ], + "source": [ + "print(aerzte.dtypes)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Geokodiert werden kann nur ein einziges Feld, in dem die komplette Adresse steht. Die einzelnen Bestandteile der Adresse werden kommagetrennt. Wir brauchen also eine neue Spalte, die sich aus den Werten der Spalten \"Adresse\", \"PLZ\", \"Stadt\" und \"Land\" zusammensetzt. Das bedeutet, dass 4 Strings miteinander verknüpft werden müssen. Da die Ausgabe der Datentypen aber ergeben hat, dass \"PLZ\" als Zahl gespeichert wird, ändern Sie die komplette Spalte zunächst in den Typ \"String\" um:" + ] + }, + { + "cell_type": "code", + "execution_count": 26, + "metadata": {}, + "outputs": [], + "source": [ + "aerzte['PLZ'] = aerzte['PLZ'].astype(str)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Legen Sie nun eine neue Spalte \"Adresse_kombiniert\" an. Hinweis: Dies kann in einer Zeile Code erfolgen, es ist keine Schleife nötig! Die neue Spalte soll einen kommagetrennten String aus Teilstrings von \"Adresse\", \"PLZ\", \"Stadt\" und \"Land\" enthalten. Lassen Sie sich diese Spalte ausgeben." + ] + }, + { + "cell_type": "code", + "execution_count": 27, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "0 Waitzstr. 7,22607,Hamburg,Germany\n", + "1 Neuer Wall 43,20354,Hamburg,Germany\n", + "2 Möllner Landstr. 26 a,22111,Hamburg,Germany\n", + "3 Wandsbeker Marktstr. 73,22041,Hamburg,Germany\n", + "4 Sand 35,21073,Hamburg,Germany\n", + " ... \n", + "131 Tangstedter Landstr. 77,22415,Hamburg,Germany\n", + "132 Spitalerstr. 32,20095,Hamburg,Germany\n", + "133 Erdkampsweg 55,22335,Hamburg,Germany\n", + "134 Bismarckstr. 115,20253,Hamburg,Germany\n", + "135 Wandsbeker Marktstr. 8,22041,Hamburg,Germany\n", + "Name: Adresse_kombiniert, Length: 120, dtype: object\n" + ] + } + ], + "source": [ + "aerzte[\"Adresse_kombiniert\"] = aerzte[\"Adresse\"] + \",\" + aerzte[\"PLZ\"] + \",\" + aerzte[\"Stadt\"] + \",\" + aerzte[\"Land\"]\n", + "print(aerzte['Adresse_kombiniert'])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Als nächstes können wir diese Spalte geokodieren. Die GIS-Bibliothek <b>geopy</b> unterstützt eine Vielzahl an Geocodern, unter anderem auch den Esri-Geocoder. Zur API-Referenz siehe hier: https://geopy.readthedocs.io/en/stable/#module-geopy.geocoders \n", + "\n", + "Da wir einen offenen Geocoder verwenden wollen, wählen wir für diese Aufgabe <b>Nominatim</b>, der seine Daten aus OpenStreetMap bezieht. Es ist möglich, mit wenigen Zeilen Code ein komplettes Pandas-DataFrame zu geokodieren. Informationen Sie sich hierzu unter https://geopy.readthedocs.io/en/stable/#usage-with-pandas. (Die Verwendung des <i>RateLimiters</i> ist optional.) Geokodieren Sie nun also die Spalte \"Adresse_kombiniert\" in eine neue Spalte namens \"Geocoded\", und vergessen Sie vorher nicht den Nominatim-Geocoder korrekt einzubinden. Lassen Sie sich danach die neue Spalte ausgeben. Der Geokodierungsprozess wird ca. eine Minute dauern, erst dann wird das Ergebnis angezeigt.\n" + ] + }, + { + "cell_type": "code", + "execution_count": 31, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " ID Fachgebiet1 Adresse PLZ \\\n", + "0 2 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 22607 \n", + "1 52 Hals-Nasen-Ohrenheilkunde Neuer Wall 43 20354 \n", + "2 102 Hals-Nasen-Ohrenheilkunde Möllner Landstr. 26 a 22111 \n", + "3 125 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 73 22041 \n", + "4 148 Hals-Nasen-Ohrenheilkunde Sand 35 21073 \n", + ".. ... ... ... ... \n", + "131 3947 Hals-Nasen-Ohrenheilkunde Tangstedter Landstr. 77 22415 \n", + "132 3971 Hals-Nasen-Ohrenheilkunde Spitalerstr. 32 20095 \n", + "133 4030 Hals-Nasen-Ohrenheilkunde Erdkampsweg 55 22335 \n", + "134 4042 Hals-Nasen-Ohrenheilkunde Bismarckstr. 115 20253 \n", + "135 4057 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 8 22041 \n", + "\n", + " Privatarzt Stadt Land \\\n", + "0 NaN Hamburg Germany \n", + "1 NaN Hamburg Germany \n", + "2 NaN Hamburg Germany \n", + "3 NaN Hamburg Germany \n", + "4 NaN Hamburg Germany \n", + ".. ... ... ... \n", + "131 NaN Hamburg Germany \n", + "132 NaN Hamburg Germany \n", + "133 NaN Hamburg Germany \n", + "134 NaN Hamburg Germany \n", + "135 NaN Hamburg Germany \n", + "\n", + " Adresse_kombiniert \\\n", + "0 Waitzstr. 7,22607,Hamburg,Germany \n", + "1 Neuer Wall 43,20354,Hamburg,Germany \n", + "2 Möllner Landstr. 26 a,22111,Hamburg,Germany \n", + "3 Wandsbeker Marktstr. 73,22041,Hamburg,Germany \n", + "4 Sand 35,21073,Hamburg,Germany \n", + ".. ... \n", + "131 Tangstedter Landstr. 77,22415,Hamburg,Germany \n", + "132 Spitalerstr. 32,20095,Hamburg,Germany \n", + "133 Erdkampsweg 55,22335,Hamburg,Germany \n", + "134 Bismarckstr. 115,20253,Hamburg,Germany \n", + "135 Wandsbeker Marktstr. 8,22041,Hamburg,Germany \n", + "\n", + " Geocoded \n", + "0 (Änderungsschneiderei, 7, Waitzstraße, Groß Fl... \n", + "1 (van Laack, 43, Neuer Wall, Neustadt, Hamburg-... \n", + "2 (Möllner Landstraße, Billstedt, Hamburg-Mitte,... \n", + "3 (Adler-Apotheke, 73, Wandsbeker Marktstraße, W... \n", + "4 (Damian Apotheke, 35, Sand, Harburg, Hamburg, ... \n", + ".. ... \n", + "131 (Ärztehaus Langenhorn, 77, Tangstedter Landstr... \n", + "132 (Praxis Forster & Team, 32, Spitalerstraße, Al... \n", + "133 (55, Erdkampsweg, Fuhlsbüttel, Hamburg-Nord, H... \n", + "134 (Fachärzte für HNO, 115, Bismarckstraße, Hohel... \n", + "135 (First Cut, 8, Wandsbeker Marktstraße, Marient... \n", + "\n", + "[120 rows x 9 columns]\n" + ] + } + ], + "source": [ + "from geopy.geocoders import Nominatim \n", + "nom = Nominatim(user_agent=\"unigoe1\")\n", + "aerzte[\"Geocoded\"] = aerzte[\"Adresse_kombiniert\"].apply(nom.geocode)\n", + "print(aerzte['Geocoded'])" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Um aus dem Ergebnis Längen-und Breitengrad zu extrahieren und in neuen Spalten zu speichern, gibt es eine Syntax, die Ihnen im Folgenden vorgegeben wird, da sogenannte <i>lambda-Funktionen</i> noch nicht behandelt wurden. Sie müssen in der folgenden Code-Zelle ggf. nur noch den Namen Ihres DataFrames entsprechend anpassen. " + ] + }, + { + "cell_type": "code", + "execution_count": 34, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " ID Fachgebiet1 Adresse PLZ Privatarzt \\\n", + "0 2 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 22607 NaN \n", + "1 52 Hals-Nasen-Ohrenheilkunde Neuer Wall 43 20354 NaN \n", + "2 102 Hals-Nasen-Ohrenheilkunde Möllner Landstr. 26 a 22111 NaN \n", + "3 125 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 73 22041 NaN \n", + "4 148 Hals-Nasen-Ohrenheilkunde Sand 35 21073 NaN \n", + "\n", + " Stadt Land Adresse_kombiniert \\\n", + "0 Hamburg Germany Waitzstr. 7,22607,Hamburg,Germany \n", + "1 Hamburg Germany Neuer Wall 43,20354,Hamburg,Germany \n", + "2 Hamburg Germany Möllner Landstr. 26 a,22111,Hamburg,Germany \n", + "3 Hamburg Germany Wandsbeker Marktstr. 73,22041,Hamburg,Germany \n", + "4 Hamburg Germany Sand 35,21073,Hamburg,Germany \n", + "\n", + " Geocoded latitude longitude \n", + "0 (Änderungsschneiderei, 7, Waitzstraße, Groß Fl... 53.559497 9.885421 \n", + "1 (van Laack, 43, Neuer Wall, Neustadt, Hamburg-... 53.551104 9.989545 \n", + "2 (Möllner Landstraße, Billstedt, Hamburg-Mitte,... 53.539653 10.103738 \n", + "3 (Adler-Apotheke, 73, Wandsbeker Marktstraße, W... 53.572075 10.066240 \n", + "4 (Damian Apotheke, 35, Sand, Harburg, Hamburg, ... 53.461323 9.979341 \n" + ] + } + ], + "source": [ + "aerzte[\"latitude\"]=aerzte[\"Geocoded\"].apply(lambda x: x.latitude if x != None else None)\n", + "aerzte[\"longitude\"]=aerzte[\"Geocoded\"].apply(lambda x: x.longitude if x != None else None)\n", + "print(aerzte.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Die ausgegebene Tabelle sollte nun die Arztdaten zusammen mit den neuen Feldern \"Geocoded\", \"latitude\" und \"longitude\" enthalten. Speichern Sie das Ergebnis nun unbedingt im Ordner \"Daten\" ab, damit Sie später den Geokodierungsprozess nicht neu durchführen müssen, sondern einfach das fertige Teilergebnis einlesen können. Verwenden Sie hierfür einfach die <b>to_csv</b>-Funktion; ein Abspeichern im Excel-Format ist nicht nötig." + ] + }, + { + "cell_type": "code", + "execution_count": 35, + "metadata": {}, + "outputs": [], + "source": [ + "aerzte.to_csv(\"../Daten/geocoded.csv\")" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.6.7" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git "a/Aufgabe/R\303\244umliche Verschneidung.ipynb" "b/Aufgabe/R\303\244umliche Verschneidung.ipynb" new file mode 100644 index 0000000..09e83f1 --- /dev/null +++ "b/Aufgabe/R\303\244umliche Verschneidung.ipynb" @@ -0,0 +1,450 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Räumliche Verschneidung" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Um dort zu starten, wo im letzten Arbeitsschritt aufgehört wurde, lesen Sie zunächst Ihre <b>geokodierte</b> Ärzte-Tabelle in ein DataFrame namens <b>\"aerzte\"</b> ein. Da diese im CSV-Format gespeichert wurde, kann die Pandas-Funktion <b>read_csv</b> verwendet werden. Vergessen Sie nicht, Pandas vorher wieder einzubinden." + ] + }, + { + "cell_type": "code", + "execution_count": 1, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Unnamed: 0 ID Fachgebiet1 Adresse PLZ \\\n", + "0 0 2 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 22607 \n", + "1 1 52 Hals-Nasen-Ohrenheilkunde Neuer Wall 43 20354 \n", + "2 2 102 Hals-Nasen-Ohrenheilkunde Möllner Landstr. 26 a 22111 \n", + "3 3 125 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 73 22041 \n", + "4 4 148 Hals-Nasen-Ohrenheilkunde Sand 35 21073 \n", + "\n", + " Privatarzt Stadt Land \\\n", + "0 NaN Hamburg Germany \n", + "1 NaN Hamburg Germany \n", + "2 NaN Hamburg Germany \n", + "3 NaN Hamburg Germany \n", + "4 NaN Hamburg Germany \n", + "\n", + " Adresse_kombiniert \\\n", + "0 Waitzstr. 7,22607,Hamburg,Germany \n", + "1 Neuer Wall 43,20354,Hamburg,Germany \n", + "2 Möllner Landstr. 26 a,22111,Hamburg,Germany \n", + "3 Wandsbeker Marktstr. 73,22041,Hamburg,Germany \n", + "4 Sand 35,21073,Hamburg,Germany \n", + "\n", + " Geocoded latitude longitude \n", + "0 Änderungsschneiderei, 7, Waitzstraße, Groß Flo... 53.559497 9.885421 \n", + "1 van Laack, 43, Neuer Wall, Neustadt, Hamburg-M... 53.551104 9.989545 \n", + "2 Möllner Landstraße, Billstedt, Hamburg-Mitte, ... 53.539653 10.103738 \n", + "3 Adler-Apotheke, 73, Wandsbeker Marktstraße, Wa... 53.572075 10.066240 \n", + "4 Damian Apotheke, 35, Sand, Harburg, Hamburg, 2... 53.461323 9.979341 \n" + ] + } + ], + "source": [ + "import pandas as pd\n", + "aerzte = pd.DataFrame(pd.read_csv(\"../Daten/geocoded.csv\", sep=',', encoding = \"utf-8\"))\n", + "print(aerzte.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Lesen Sie nun auch das Shapefile <b>shapefile.shp</b> mit Stadtteilinformationen ein, das im gleichen Ordner zu finden ist. Nennen Sie Ihre Variable <b>stadtteile</b> und lassen Sie sich die ersten paar Zeilen ausgeben. Beachten Sie zur Lösung dieser Aufgabe folgende Hinweise:\n", + "- Die Bibliothek <b>Geopandas</b> (eine Erweiterung von Pandas um räumliche Funktionen) bietet die Funktion <b>read_file</b> an, mit der man Shapefiles einlesen kann\n", + "- Die eingelesenen Daten werden in ein <b>GeoDataframe</b> geschrieben, das genauso behandelt werden kann wie ein normales DataFrame, aber noch zusätzliche Funktionen unterstützt\n", + "- Mehr Infos zu Einlesen und Abspeichern von Dateien mit Geopandas hier: http://geopandas.org/io.html" + ] + }, + { + "cell_type": "code", + "execution_count": 2, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " OBJECTID NAME code Shape_Leng xlsID Bezirk Einwohner \\\n", + "0 1 Barmbek-Süd 3 7442.385726 49 Hamburg-Nord 31360 \n", + "1 3 Duvenstedt 0 13986.241699 68 Wandsbek 6220 \n", + "2 7 Rissen 0 26714.578295 32 Altona 14763 \n", + "3 8 Blankenese 0 13233.990172 29 Altona 12807 \n", + "4 10 Volksdorf 0 17677.783156 71 Wandsbek 19989 \n", + "\n", + " Einw_u18 Anteil_u18 ü65 ... Gewaltdeli Gew_Dichte Diebstahl \\\n", + "0 2895 9.2 5099 ... 65 2 1654 \n", + "1 1573 25.3 1103 ... 6 1 137 \n", + "2 2542 17.2 4398 ... 19 1 439 \n", + "3 2243 17.5 3541 ... 28 2 472 \n", + "4 4100 20.5 5038 ... 35 2 572 \n", + "\n", + " Die_Dichte Shape_Le_1 Shape_Area OBJECTID_1 FREQUENCY NAME_1 \\\n", + "0 53 7442.385726 3121774.74 3 1 Barmbek-Süd \n", + "1 22 13986.241699 6700717.44 8 1 Duvenstedt \n", + "2 30 26714.578295 16812700.56 33 1 Rissen \n", + "3 37 13233.990172 7839792.18 6 3 Blankenese \n", + "4 29 17677.783156 11311905.78 39 2 Volksdorf \n", + "\n", + " geometry \n", + "0 POLYGON ((568738.5000999998 5936170.3463, 5687... \n", + "1 POLYGON ((574154.1001000004 5950369.9463, 5740... \n", + "2 POLYGON ((552240.9001000002 5939762.5463, 5522... \n", + "3 POLYGON ((551279.1001000004 5934212.5463, 5507... \n", + "4 POLYGON ((578633.7001 5943958.3463, 578496.300... \n", + "\n", + "[5 rows x 88 columns]\n" + ] + } + ], + "source": [ + "import geopandas as gp\n", + "stadtteile = gp.read_file(\"../Daten/shapefile.shp\")\n", + "print(stadtteile.head())" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Filtern Sie jetzt das Stadtteil-GeoDataframe so, dass nur noch die drei Spalten \"NAME\", \"Einwohner\" und \"geometry\" übrig bleiben. Lassen Sie sich das Ergebnis ausgeben und <b>speichern</b> Sie es anschließend mithilfe der <b>to_file</b>-Funktion (driver = 'ESRI_Shapefile') unter dem Namen <b>\"stadtteile_gefiltert.shp\"</b> im Daten-Ordner." + ] + }, + { + "cell_type": "code", + "execution_count": 3, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " NAME Einwohner geometry\n", + "0 Barmbek-Süd 31360 POLYGON ((568738.5000999998 5936170.3463, 5687...\n", + "1 Duvenstedt 6220 POLYGON ((574154.1001000004 5950369.9463, 5740...\n", + "2 Rissen 14763 POLYGON ((552240.9001000002 5939762.5463, 5522...\n", + "3 Blankenese 12807 POLYGON ((551279.1001000004 5934212.5463, 5507...\n", + "4 Volksdorf 19989 POLYGON ((578633.7001 5943958.3463, 578496.300...\n", + ".. ... ... ...\n", + "95 St. Georg 10279 POLYGON ((568009.5000999998 5934687.146299999,...\n", + "96 Hohenfelde 8904 POLYGON ((566795.1001000004 5935675.9463, 5669...\n", + "97 Altona-Nord 33052 POLYGON ((563605.9812000003 5935419.763699999,...\n", + "98 Sternschanze 7723 POLYGON ((564561.5401999997 5935584.9878, 5644...\n", + "99 Hafen-City 1097 POLYGON ((566813.6781000001 5933346.6083, 5669...\n", + "\n", + "[100 rows x 3 columns]\n" + ] + } + ], + "source": [ + "selected_cols = ['NAME', 'Einwohner', 'geometry']\n", + "stadtteile = stadtteile[selected_cols]\n", + "print(stadtteile)\n", + "stadtteile.to_file(driver='ESRI Shapefile', filename='../Daten/stadtteile_gefiltert.shp')" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Da wir räumliche Funktionen ausführen wollen, die das normale DataFrame nicht unterstützt, müssen wir nun auch unsere Ärzte-Tabelle in ein GeoDataframe umwandeln. Der Unterschied besteht hier nur darin, dass das GeoDataframe eine Spalte namens \"geometry\" besitzt (wie im Stadtteil-GeoDataframe zu sehen), in der die räumlichen Geometrien in einem bestimmten Format gespeichert werden. Zusätzlich kann ein Koordinatensystem angegeben werden, das wir fürs Erste auf das geographische Koordinatensystem WGS1984 mit dem Code <i>epsg:4325</i> setzen.\n", + "\n", + "Die Erstellung der Geometrie wird im Folgenden aufgrund der noch nicht behandelten Syntax vorgeben. Beachten Sie, dass wir mit <b>Point()</b> eine Datenstruktur aus der externen Bibliothek <b>shapely</b> importieren, die GeoPandas wiederum für das Speichern seiner Geometrien verwendet. " + ] + }, + { + "cell_type": "code", + "execution_count": 4, + "metadata": {}, + "outputs": [], + "source": [ + "from shapely.geometry import Point #dieses Format kann von einem GeoDataframe verstanden werden\n", + "geometry = [Point(xy) for xy in zip(aerzte[\"longitude\"], aerzte[\"latitude\"])] #erstelle Punktgeometrie aus Koordinaten\n", + "crs = {'init' :'epsg:4326'} #erstmal verwenden wir WGS1984 als Koordinatensystem" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Legen Sie auf Basis dieser Vorarbeit nun ein GeodataFrame namens <b>aerzteGDF</b> an. Zur Syntax siehe hier: http://geopandas.org/reference/geopandas.GeoDataFrame.html. Die eben erstellten Variablen <i>geometry</i> und <i>crs</i> müssen also nur noch hinter den gleichnamigen Parameternamen (<i>crs=...</i>) eingesetzt werden; als Ausgangs-DataFrame dient das DataFrame <i>aerzte</i>." + ] + }, + { + "cell_type": "code", + "execution_count": 5, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Unnamed: 0 ID Fachgebiet1 Adresse \\\n", + "0 0 2 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 \n", + "1 1 52 Hals-Nasen-Ohrenheilkunde Neuer Wall 43 \n", + "2 2 102 Hals-Nasen-Ohrenheilkunde Möllner Landstr. 26 a \n", + "3 3 125 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 73 \n", + "4 4 148 Hals-Nasen-Ohrenheilkunde Sand 35 \n", + ".. ... ... ... ... \n", + "115 131 3947 Hals-Nasen-Ohrenheilkunde Tangstedter Landstr. 77 \n", + "116 132 3971 Hals-Nasen-Ohrenheilkunde Spitalerstr. 32 \n", + "117 133 4030 Hals-Nasen-Ohrenheilkunde Erdkampsweg 55 \n", + "118 134 4042 Hals-Nasen-Ohrenheilkunde Bismarckstr. 115 \n", + "119 135 4057 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 8 \n", + "\n", + " PLZ Privatarzt Stadt Land \\\n", + "0 22607 NaN Hamburg Germany \n", + "1 20354 NaN Hamburg Germany \n", + "2 22111 NaN Hamburg Germany \n", + "3 22041 NaN Hamburg Germany \n", + "4 21073 NaN Hamburg Germany \n", + ".. ... ... ... ... \n", + "115 22415 NaN Hamburg Germany \n", + "116 20095 NaN Hamburg Germany \n", + "117 22335 NaN Hamburg Germany \n", + "118 20253 NaN Hamburg Germany \n", + "119 22041 NaN Hamburg Germany \n", + "\n", + " Adresse_kombiniert \\\n", + "0 Waitzstr. 7,22607,Hamburg,Germany \n", + "1 Neuer Wall 43,20354,Hamburg,Germany \n", + "2 Möllner Landstr. 26 a,22111,Hamburg,Germany \n", + "3 Wandsbeker Marktstr. 73,22041,Hamburg,Germany \n", + "4 Sand 35,21073,Hamburg,Germany \n", + ".. ... \n", + "115 Tangstedter Landstr. 77,22415,Hamburg,Germany \n", + "116 Spitalerstr. 32,20095,Hamburg,Germany \n", + "117 Erdkampsweg 55,22335,Hamburg,Germany \n", + "118 Bismarckstr. 115,20253,Hamburg,Germany \n", + "119 Wandsbeker Marktstr. 8,22041,Hamburg,Germany \n", + "\n", + " Geocoded latitude longitude \\\n", + "0 Änderungsschneiderei, 7, Waitzstraße, Groß Flo... 53.559497 9.885421 \n", + "1 van Laack, 43, Neuer Wall, Neustadt, Hamburg-M... 53.551104 9.989545 \n", + "2 Möllner Landstraße, Billstedt, Hamburg-Mitte, ... 53.539653 10.103738 \n", + "3 Adler-Apotheke, 73, Wandsbeker Marktstraße, Wa... 53.572075 10.066240 \n", + "4 Damian Apotheke, 35, Sand, Harburg, Hamburg, 2... 53.461323 9.979341 \n", + ".. ... ... ... \n", + "115 Ärztehaus Langenhorn, 77, Tangstedter Landstra... 53.651396 10.017983 \n", + "116 Praxis Forster & Team, 32, Spitalerstraße, Alt... 53.551292 10.000149 \n", + "117 55, Erdkampsweg, Fuhlsbüttel, Hamburg-Nord, Ha... 53.629615 10.022251 \n", + "118 Fachärzte für HNO, 115, Bismarckstraße, Hohelu... 53.577285 9.971537 \n", + "119 First Cut, 8, Wandsbeker Marktstraße, Marienth... 53.570492 10.061576 \n", + "\n", + " geometry \n", + "0 POINT (9.8854209 53.5594975) \n", + "1 POINT (9.989545 53.5511039) \n", + "2 POINT (10.1037383 53.5396527) \n", + "3 POINT (10.0662405 53.572075) \n", + "4 POINT (9.9793412 53.4613231) \n", + ".. ... \n", + "115 POINT (10.0179825746869 53.65139605) \n", + "116 POINT (10.0001492 53.5512924) \n", + "117 POINT (10.0222513142276 53.62961545) \n", + "118 POINT (9.9715366 53.57728520000001) \n", + "119 POINT (10.0615756 53.570492) \n", + "\n", + "[120 rows x 13 columns]\n" + ] + } + ], + "source": [ + "aerzteGDF = gp.GeoDataFrame(aerzte,crs=crs,geometry=geometry)\n", + "print(aerzteGDF)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Um eine räumliche Verschneidung zwischen zwei räumlichen Objekten durchzuführen, müssen jedoch beide im gleichen Koordinatensystem liegen. Überprüfen Sie zunächst, in welchem Koordinatensystem die Stadtteile liegen. Auf diese Information greifen Sie mithilfe von <b>stadtteile.crs</b> zu. Lassen Sie sich dieses ausgeben:" + ] + }, + { + "cell_type": "code", + "execution_count": 6, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "{'init': 'epsg:32632'}\n" + ] + } + ], + "source": [ + "print(stadtteile.crs)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Wir könnten nun entweder dieses Koordinatensystem in das der Ärztedaten umwandeln, oder umgekehrt. In unserem Fall wollen wir das der Ärztedaten in das der Stadtteile umwandeln. Überschreiben Sie hierzu Ihre Variable <i>aerzteGDF</i> mit dem Ergebnis der Funktion <b>aerzteGDF.to_crs()</b>, welcher Sie das Koordinatensystem der Stadtteil-GDF übergeben. Damit erhalten Sie ein GeoDataframe im gleichen Koordinatensystem wie die Stadtteile." + ] + }, + { + "cell_type": "code", + "execution_count": 7, + "metadata": {}, + "outputs": [], + "source": [ + "aerzteGDF = aerzteGDF.to_crs(stadtteile.crs) " + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Als nächstes können wir einen <b>Spatial Join</b> durchführen, d.h. eine räumliche Verschneidung, mit der ermittelt wird, in welchen Stadtteilen die Punkt-Koordinaten der Ärzte liegen, sodass die passenden Stadtteil-Informationen (in unserem Fall Name und Einwohner) der Ärzte-Tabelle zugeordnet werden kann. Verwenden Sie hierfür Geopandas' <b>sjoin</b>-Funktion: http://geopandas.org/reference/geopandas.sjoin.html, der Sie Ihre Geodataframes <i>aerzteGDF</i> und <i>stadtteile</i> übergeben, und speichern Sie das Ergebnis in einer neuen Variablen namens <b>aerzte_mit_stadtteil</b>. Lassen Sie sich diese Variable ausgeben. Sie sollte nicht leer sein! Anderenfalls hat vermutlich etwas mit dem Gleichsetzen der Koordinatensysteme nicht geklappt." + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Unnamed: 0 ID Fachgebiet1 Adresse \\\n", + "0 0 2 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 \n", + "19 19 592 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 \n", + "33 34 995 Hals-Nasen-Ohrenheilkunde Waitzstr. 14 \n", + "87 99 2870 Hals-Nasen-Ohrenheilkunde Beselerplatz 11 \n", + "107 122 3722 Hals-Nasen-Ohrenheilkunde Waitzstr. 14 \n", + ".. ... ... ... ... \n", + "99 114 3387 Hals-Nasen-Ohrenheilkunde Bornheide 11 \n", + "94 108 3148 Hals-Nasen-Ohrenheilkunde Wolffstr. 9 \n", + "106 121 3693 Hals-Nasen-Ohrenheilkunde Marktpassage 6 \n", + "115 131 3947 Hals-Nasen-Ohrenheilkunde Tangstedter Landstr. 77 \n", + "119 135 4057 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 8 \n", + "\n", + " PLZ Privatarzt Stadt Land \\\n", + "0 22607 NaN Hamburg Germany \n", + "19 22607 NaN Hamburg Germany \n", + "33 22607 NaN Hamburg Germany \n", + "87 22607 NaN Hamburg Germany \n", + "107 22607 NaN Hamburg Germany \n", + ".. ... ... ... ... \n", + "99 22549 NaN Hamburg Germany \n", + "94 22525 NaN Hamburg Germany \n", + "106 21149 NaN Hamburg Germany \n", + "115 22415 NaN Hamburg Germany \n", + "119 22041 NaN Hamburg Germany \n", + "\n", + " Adresse_kombiniert \\\n", + "0 Waitzstr. 7,22607,Hamburg,Germany \n", + "19 Waitzstr. 7,22607,Hamburg,Germany \n", + "33 Waitzstr. 14,22607,Hamburg,Germany \n", + "87 Beselerplatz 11,22607,Hamburg,Germany \n", + "107 Waitzstr. 14,22607,Hamburg,Germany \n", + ".. ... \n", + "99 Bornheide 11,22549,Hamburg,Germany \n", + "94 Wolffstr. 9,22525,Hamburg,Germany \n", + "106 Marktpassage 6,21149,Hamburg,Germany \n", + "115 Tangstedter Landstr. 77,22415,Hamburg,Germany \n", + "119 Wandsbeker Marktstr. 8,22041,Hamburg,Germany \n", + "\n", + " Geocoded latitude longitude \\\n", + "0 Änderungsschneiderei, 7, Waitzstraße, Groß Flo... 53.559497 9.885421 \n", + "19 Änderungsschneiderei, 7, Waitzstraße, Groß Flo... 53.559497 9.885421 \n", + "33 Volksbank, 14, Waitzstraße, Groß Flottbek, Alt... 53.559661 9.884339 \n", + "87 Köpi-Bar, 11, Beselerplatz, Groß Flottbek, Alt... 53.559699 9.887951 \n", + "107 Volksbank, 14, Waitzstraße, Groß Flottbek, Alt... 53.559661 9.884339 \n", + ".. ... ... ... \n", + "99 Deesmoor-Apotheke, 11, Bornheide, Osdorf, Alto... 53.582789 9.855380 \n", + "94 Ärztehaus, 9, Wolffstraße, Stellingen, Eimsbüt... 53.579169 9.933645 \n", + "106 6, Marktpassage, Neugraben, Neugraben-Fischbek... 53.470557 9.853249 \n", + "115 Ärztehaus Langenhorn, 77, Tangstedter Landstra... 53.651396 10.017983 \n", + "119 First Cut, 8, Wandsbeker Marktstraße, Marienth... 53.570492 10.061576 \n", + "\n", + " geometry index_right \\\n", + "0 POINT (558649.2475721425 5934877.526663299) 22 \n", + "19 POINT (558649.2475721425 5934877.526663299) 22 \n", + "33 POINT (558577.3466108972 5934894.802930685) 22 \n", + "87 POINT (558816.5614957435 5934902.040986323) 22 \n", + "107 POINT (558577.3466108972 5934894.802930685) 22 \n", + ".. ... ... \n", + "99 POINT (556628.3174588972 5937444.31490787) 11 \n", + "94 POINT (561814.8077995365 5937106.683680706) 31 \n", + "106 POINT (556636.7223994726 5924957.048849167) 21 \n", + "115 POINT (567283.4957914886 5945218.391117038) 10 \n", + "119 POINT (570298.9358385277 5936260.128897806) 27 \n", + "\n", + " NAME Einwohner \n", + "0 Othmarschen 12335 \n", + "19 Othmarschen 12335 \n", + "33 Othmarschen 12335 \n", + "87 Othmarschen 12335 \n", + "107 Othmarschen 12335 \n", + ".. ... ... \n", + "99 Osdorf 25203 \n", + "94 Stellingen 23037 \n", + "106 Neugraben-Fischbek 26782 \n", + "115 Langenhorn 41459 \n", + "119 Marienthal 12239 \n", + "\n", + "[120 rows x 16 columns]\n" + ] + } + ], + "source": [ + "aerzte_mit_stadtteil = gp.sjoin(aerzteGDF, stadtteile)\n", + "print(aerzte_mit_stadtteil)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Speichern Sie dieses Ergebnis als Shapefile mit dem Namen \"Aerzte_mit_Stadtteil.shp\" im Daten-Ordner ab." + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [], + "source": [ + "aerzte_mit_stadtteil.to_file(driver='ESRI Shapefile', filename='../Daten/Aerzte_mit_Stadtteil.shp')" + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.6.7" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/Aufgabe/Versorgungsgrad berechnen.ipynb b/Aufgabe/Versorgungsgrad berechnen.ipynb new file mode 100644 index 0000000..c5e372f --- /dev/null +++ b/Aufgabe/Versorgungsgrad berechnen.ipynb @@ -0,0 +1,537 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Berechnung und Darstellung des Versorgungsgrads" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Um dort anzuknüpfen, wo wir im letzten Teil aufgehört haben, lesen Sie zunächst \"Aerzte_mit_Stadtteilen.shp\" in einen GeoDataframe mit Namen \"aerzte_mit_stadtteil\" und die gefilterten Stadtteile (\"stadtteile_gefiltert.shp\") in einen GeoDataframe mit Namen \"stadtteile\" ein. " + ] + }, + { + "cell_type": "code", + "execution_count": 10, + "metadata": {}, + "outputs": [], + "source": [ + "import geopandas as gp\n", + "import pandas as pd\n", + "\n", + "aerzte_mit_stadtteil = gp.read_file(\"../Daten/Aerzte_mit_Stadtteil.shp\")\n", + "stadtteile = gp.read_file(\"../Daten/stadtteile_gefiltert.shp\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Wir wollen nun zunächst berechnen, wie viele Ärzte es pro Stadtteil gibt. Zum Glück bietet Pandas hierfür bereits eine einfache Funktion an: <b>aerzte_mit_stadtteil[\"NAME\"].value_counts()</b>. Alternativ können Sie zuvor die Spalte \"NAME\" zur besseren Verständlichkeit auch gerne in \"Stadtteilname\" o.ä. umbenennen. Speichern Sie das Ergebnis dieses Funktionsaufrufs in einer Variablen namens <b>anzahl_aerzte</b> und lassen Sie diese ausgeben." + ] + }, + { + "cell_type": "code", + "execution_count": 11, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Harburg 8\n", + "Neustadt 7\n", + "Bergedorf 6\n", + "Poppenbüttel 6\n", + "Othmarschen 6\n", + "Altona-Altstadt 5\n", + "Hamburg-Altstadt 5\n", + "Eimsbüttel 4\n", + "Winterhude 4\n", + "Ottensen 4\n", + "Barmbek-Nord 4\n", + "Eppendorf 4\n", + "Eidelstedt 4\n", + "Billstedt 4\n", + "Wandsbek 3\n", + "Uhlenhorst 3\n", + "Bramfeld 3\n", + "Niendorf 3\n", + "Hoheluft-West 3\n", + "Blankenese 3\n", + "Volksdorf 2\n", + "Fuhlsbüttel 2\n", + "Osdorf 2\n", + "Rahlstedt 2\n", + "Wilhelmsburg 2\n", + "Horn 2\n", + "Tonndorf 2\n", + "Hausbruch 2\n", + "Schnelsen 2\n", + "Barmbek-Süd 1\n", + "Farmsen-Berne 1\n", + "Hamm-Nord 1\n", + "Langenhorn 1\n", + "Duvenstedt 1\n", + "Marienthal 1\n", + "Rissen 1\n", + "Neugraben-Fischbek 1\n", + "Stellingen 1\n", + "Hamm-Mitte 1\n", + "Rotherbaum 1\n", + "Harvestehude 1\n", + "Lohbrügge 1\n", + "Name: NAME, dtype: int64\n" + ] + } + ], + "source": [ + "anzahl_aerzte = aerzte_mit_stadtteil[\"NAME\"].value_counts()\n", + "print(anzahl_aerzte)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Die aufgelisteten Zahlen würden wir dem bestehenden DataFrame nun gerne als neue Spalte namens \"ANZAHL_AERZTE\" hinzufügen. Verwenden Sie hierfür die im DataFrame-Tutorial gelernte Vorgehensweise mit der Schleife, d.h.:\n", + "\n", + "- Legen Sie eine leere Liste an\n", + "- Iterieren Sie durch den Ärzte-DataFrame und greifen Sie pro Durchlauf auf den Namen (\"NAME\") des Stadtteils aus den im Format \"Series\" gegebenen Zeilen-Daten zu\n", + "- Nutzen Sie diesen Namen als Schlüssel für die als Variable <i>anzahl_aerzte</i> gespeicherten Key-Value-Pairs, um die Anzahl an Ärzten zu erhalten\n", + "- Erstellen Sie ein neues, leeres Dictionary und fügen Sie einen neuen Eintrag \"NAME\" mit dem Stadtteilnamen hinzu\n", + "(alternativ können Sie auch auf die in ein Dictionary umgewandelte Series aufbauen - dann wird das Ergebnis eben deutlich mehr Daten erhalten)\n", + "- Fügen Sie Ihrem Dictionary außerdem einen neuen Eintrag \"ANZAHL_AERZTE\" mit der Anzahl der Ärzte hinzu.\n", + "- Hängen Sie das Dictionary an Ihre Liste an\n", + "- Nach der Schleife erstellen Sie ein neues DataFrame (oder GeoDataframe) aus der gefüllten Liste" + ] + }, + { + "cell_type": "code", + "execution_count": 12, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " NAME ANZAHL_AERZTE\n", + "0 Othmarschen 6\n", + "1 Othmarschen 6\n", + "2 Othmarschen 6\n", + "3 Othmarschen 6\n", + "4 Othmarschen 6\n", + ".. ... ...\n", + "115 Osdorf 2\n", + "116 Stellingen 1\n", + "117 Neugraben-Fischbek 1\n", + "118 Langenhorn 1\n", + "119 Marienthal 1\n", + "\n", + "[120 rows x 2 columns]\n" + ] + } + ], + "source": [ + "lines = []\n", + "for row, data in aerzte_mit_stadtteil.iterrows():\n", + " \n", + " name = data[\"NAME\"]\n", + " my_dict = {}\n", + " my_dict[\"NAME\"] = name\n", + " my_dict['ANZAHL_AERZTE'] = anzahl_aerzte[name]\n", + " lines.append(my_dict) \n", + " \n", + "result = gp.GeoDataFrame(lines) \n", + "print(result)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Als nächstes wollen wir die Information über die Anzahl an Ärzten in unser Stadtteil-GeoDataframe übertragen. Da das Stadtteil-GDF eine Spalte \"NAME\" enthält und unser DataFrame aus dem letzten Schritt ebenfalls eine Spalte \"NAME\" neben der Spalte \"ANZAHL_AERZTE\" enthält, können wir beide Tabellen über die gemeinsame Spalte \"NAME\" vereinigen. Verwenden Sie hierfür Pandas' <b>merge</b>-Funktion (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.merge.html), der Sie erst die Stadtteile und dann den DataFrame des letzten Arbeitsschritts übergeben. \n", + "\n", + "Wichtig: Das Standard-Verhalten von <i>merge</i> ist ein sogenannter <i>innerer Join</i>, der nur übereinstimmende Tabelleneinträge beibehält und die anderen entfernt. Wir wollen aber auch diejenigen Stadtteile beibehalten, in denen es überhaupt keine Ärzte gibt. Verwenden Sie deshalb den Parameter <b>how='left'</b>. " + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " NAME Einwohner \\\n", + "0 Barmbek-Süd 31360 \n", + "1 Duvenstedt 6220 \n", + "2 Rissen 14763 \n", + "3 Blankenese 12807 \n", + "4 Blankenese 12807 \n", + ".. ... ... \n", + "173 St. Georg 10279 \n", + "174 Hohenfelde 8904 \n", + "175 Altona-Nord 33052 \n", + "176 Sternschanze 7723 \n", + "177 Hafen-City 1097 \n", + "\n", + " geometry ANZAHL_AERZTE \n", + "0 POLYGON ((568738.5000999998 5936170.3463, 5687... 1.0 \n", + "1 POLYGON ((574154.1001000004 5950369.9463, 5740... 1.0 \n", + "2 POLYGON ((552240.9001000002 5939762.5463, 5522... 1.0 \n", + "3 POLYGON ((551279.1001000004 5934212.5463, 5507... 3.0 \n", + "4 POLYGON ((551279.1001000004 5934212.5463, 5507... 3.0 \n", + ".. ... ... \n", + "173 POLYGON ((568009.5000999998 5934687.146299999,... NaN \n", + "174 POLYGON ((566795.1001000004 5935675.9463, 5669... NaN \n", + "175 POLYGON ((563605.9812000003 5935419.763699999,... NaN \n", + "176 POLYGON ((564561.5401999997 5935584.9878, 5644... NaN \n", + "177 POLYGON ((566813.6781000001 5933346.6083, 5669... NaN \n", + "\n", + "[178 rows x 4 columns]\n" + ] + } + ], + "source": [ + "merged = pd.merge(stadtteile, result, on=['NAME'], how='left')\n", + "print(merged)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Wenn Sie sich das Ergebnis ausgeben lassen, sehen Sie einige NaN-Einträge in der ANZAHL_AERZTE-Spalte. Dies sind die Stadtteile, wo keine Ärzte Eingetragen sind. Füllen Sie diese Werte mit Nullen auf, indem Sie die Funktion <b>fillna</b> (https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html) auf ihr aktuelles DataFrame anwenden und das Ergebnis in einer Variablen namens <b>stadtteile_final</b> speichern." + ] + }, + { + "cell_type": "code", + "execution_count": 14, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "NAME object\n", + "Einwohner int64\n", + "geometry object\n", + "ANZAHL_AERZTE float64\n", + "dtype: object\n", + " NAME Einwohner \\\n", + "0 Barmbek-Süd 31360 \n", + "1 Duvenstedt 6220 \n", + "2 Rissen 14763 \n", + "3 Blankenese 12807 \n", + "4 Blankenese 12807 \n", + ".. ... ... \n", + "173 St. Georg 10279 \n", + "174 Hohenfelde 8904 \n", + "175 Altona-Nord 33052 \n", + "176 Sternschanze 7723 \n", + "177 Hafen-City 1097 \n", + "\n", + " geometry ANZAHL_AERZTE \n", + "0 POLYGON ((568738.5000999998 5936170.3463, 5687... 1.0 \n", + "1 POLYGON ((574154.1001000004 5950369.9463, 5740... 1.0 \n", + "2 POLYGON ((552240.9001000002 5939762.5463, 5522... 1.0 \n", + "3 POLYGON ((551279.1001000004 5934212.5463, 5507... 3.0 \n", + "4 POLYGON ((551279.1001000004 5934212.5463, 5507... 3.0 \n", + ".. ... ... \n", + "173 POLYGON ((568009.5000999998 5934687.146299999,... 0.0 \n", + "174 POLYGON ((566795.1001000004 5935675.9463, 5669... 0.0 \n", + "175 POLYGON ((563605.9812000003 5935419.763699999,... 0.0 \n", + "176 POLYGON ((564561.5401999997 5935584.9878, 5644... 0.0 \n", + "177 POLYGON ((566813.6781000001 5933346.6083, 5669... 0.0 \n", + "\n", + "[178 rows x 4 columns]\n" + ] + } + ], + "source": [ + "stadtteile_final = merged.fillna(0)\n", + "print(stadtteile_final.dtypes)\n", + "print(stadtteile_final)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Sollten Sie in der ANZAHL_AERZTE-Tabelle nun Gleitkommazahlen stehen haben, wandeln Sie die komplette Spalte mit dem bekannten <b>.astype()</b> in eine <b>int</b>-Spalte um." + ] + }, + { + "cell_type": "code", + "execution_count": 15, + "metadata": {}, + "outputs": [], + "source": [ + "stadtteile_final[\"ANZAHL_AERZTE\"] = stadtteile_final[\"ANZAHL_AERZTE\"].astype(int)" + ] + }, + { + "cell_type": "code", + "execution_count": 16, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " NAME Einwohner \\\n", + "0 Barmbek-Süd 31360 \n", + "1 Duvenstedt 6220 \n", + "2 Rissen 14763 \n", + "3 Blankenese 12807 \n", + "4 Blankenese 12807 \n", + ".. ... ... \n", + "173 St. Georg 10279 \n", + "174 Hohenfelde 8904 \n", + "175 Altona-Nord 33052 \n", + "176 Sternschanze 7723 \n", + "177 Hafen-City 1097 \n", + "\n", + " geometry ANZAHL_AERZTE \n", + "0 POLYGON ((568738.5000999998 5936170.3463, 5687... 1 \n", + "1 POLYGON ((574154.1001000004 5950369.9463, 5740... 1 \n", + "2 POLYGON ((552240.9001000002 5939762.5463, 5522... 1 \n", + "3 POLYGON ((551279.1001000004 5934212.5463, 5507... 3 \n", + "4 POLYGON ((551279.1001000004 5934212.5463, 5507... 3 \n", + ".. ... ... \n", + "173 POLYGON ((568009.5000999998 5934687.146299999,... 0 \n", + "174 POLYGON ((566795.1001000004 5935675.9463, 5669... 0 \n", + "175 POLYGON ((563605.9812000003 5935419.763699999,... 0 \n", + "176 POLYGON ((564561.5401999997 5935584.9878, 5644... 0 \n", + "177 POLYGON ((566813.6781000001 5933346.6083, 5669... 0 \n", + "\n", + "[178 rows x 4 columns]\n" + ] + } + ], + "source": [ + "print(stadtteile_final)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Legen Sie nun eine neue Spalte \"Verhaeltnis\" an, die das Ergebnis der Division von \"Einwohner\" und \"ANZAHL_Aerzte\" beinhaltet. (Tipp: Sie brauchen hierfür nur eine Zeile Code, keine Schleife.) Zum Glück wird eine Division durch 0 bereits automatisch so abgefangen, dass diese Felder den Wert <i>inf</i> erhalten." + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " NAME Einwohner \\\n", + "0 Barmbek-Süd 31360 \n", + "1 Duvenstedt 6220 \n", + "2 Rissen 14763 \n", + "3 Blankenese 12807 \n", + "4 Blankenese 12807 \n", + ".. ... ... \n", + "173 St. Georg 10279 \n", + "174 Hohenfelde 8904 \n", + "175 Altona-Nord 33052 \n", + "176 Sternschanze 7723 \n", + "177 Hafen-City 1097 \n", + "\n", + " geometry ANZAHL_AERZTE \\\n", + "0 POLYGON ((568738.5000999998 5936170.3463, 5687... 1 \n", + "1 POLYGON ((574154.1001000004 5950369.9463, 5740... 1 \n", + "2 POLYGON ((552240.9001000002 5939762.5463, 5522... 1 \n", + "3 POLYGON ((551279.1001000004 5934212.5463, 5507... 3 \n", + "4 POLYGON ((551279.1001000004 5934212.5463, 5507... 3 \n", + ".. ... ... \n", + "173 POLYGON ((568009.5000999998 5934687.146299999,... 0 \n", + "174 POLYGON ((566795.1001000004 5935675.9463, 5669... 0 \n", + "175 POLYGON ((563605.9812000003 5935419.763699999,... 0 \n", + "176 POLYGON ((564561.5401999997 5935584.9878, 5644... 0 \n", + "177 POLYGON ((566813.6781000001 5933346.6083, 5669... 0 \n", + "\n", + " Verhaeltnis \n", + "0 31360.0 \n", + "1 6220.0 \n", + "2 14763.0 \n", + "3 4269.0 \n", + "4 4269.0 \n", + ".. ... \n", + "173 inf \n", + "174 inf \n", + "175 inf \n", + "176 inf \n", + "177 inf \n", + "\n", + "[178 rows x 5 columns]\n" + ] + } + ], + "source": [ + "stadtteile_final[\"Verhaeltnis\"] = stadtteile_final[\"Einwohner\"]/stadtteile_final[\"ANZAHL_AERZTE\"]\n", + "print(stadtteile_final)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Die planmäßige Verhältniszahl für HNO-Ärzte lautet 17675. Berechnen Sie den Verhältnisgrad in einer neuen Spalte \"VG\", indem Sie das prozentuale Verhältnis zwischen dieser Zahl und dem vorliegenden Wert in der Spalte \"Verhaeltnis\" berechnen." + ] + }, + { + "cell_type": "code", + "execution_count": 18, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " NAME Einwohner \\\n", + "0 Barmbek-Süd 31360 \n", + "1 Duvenstedt 6220 \n", + "2 Rissen 14763 \n", + "3 Blankenese 12807 \n", + "4 Blankenese 12807 \n", + ".. ... ... \n", + "173 St. Georg 10279 \n", + "174 Hohenfelde 8904 \n", + "175 Altona-Nord 33052 \n", + "176 Sternschanze 7723 \n", + "177 Hafen-City 1097 \n", + "\n", + " geometry ANZAHL_AERZTE \\\n", + "0 POLYGON ((568738.5000999998 5936170.3463, 5687... 1 \n", + "1 POLYGON ((574154.1001000004 5950369.9463, 5740... 1 \n", + "2 POLYGON ((552240.9001000002 5939762.5463, 5522... 1 \n", + "3 POLYGON ((551279.1001000004 5934212.5463, 5507... 3 \n", + "4 POLYGON ((551279.1001000004 5934212.5463, 5507... 3 \n", + ".. ... ... \n", + "173 POLYGON ((568009.5000999998 5934687.146299999,... 0 \n", + "174 POLYGON ((566795.1001000004 5935675.9463, 5669... 0 \n", + "175 POLYGON ((563605.9812000003 5935419.763699999,... 0 \n", + "176 POLYGON ((564561.5401999997 5935584.9878, 5644... 0 \n", + "177 POLYGON ((566813.6781000001 5933346.6083, 5669... 0 \n", + "\n", + " Verhaeltnis VG \n", + "0 31360.0 56.361607 \n", + "1 6220.0 284.163987 \n", + "2 14763.0 119.724988 \n", + "3 4269.0 414.031389 \n", + "4 4269.0 414.031389 \n", + ".. ... ... \n", + "173 inf 0.000000 \n", + "174 inf 0.000000 \n", + "175 inf 0.000000 \n", + "176 inf 0.000000 \n", + "177 inf 0.000000 \n", + "\n", + "[178 rows x 6 columns]\n" + ] + } + ], + "source": [ + "stadtteile_final['VG'] = 17675/stadtteile_final['Verhaeltnis']*100\n", + "print(stadtteile_final)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Speichern Sie das Ergebnis als Shapefile im Daten-Ordner unter dem Namen \"versorgungsgrad.shp\"." + ] + }, + { + "cell_type": "code", + "execution_count": 19, + "metadata": {}, + "outputs": [], + "source": [ + "stadtteile_final.to_file(driver='ESRI Shapefile', filename='../Daten/versorgungsgrad.shp')" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Das Ergebnis plotten wir nun mithilfe der Bibliothek <b>matplotlib</b> und der Plotting-Funktionalität von GeoDataFrames. Der Code dafür ist unten vorgegeben, kann aber nach eigenen Ermessen von Ihnen erweitert oder verändert werden. Orientieren Sie sich hierfür an den Dokumentationen (http://geopandas.org/mapping.html bzw. https://matplotlib.org/api/pyplot_api.html). Für manche Funktionalitäten kann es aber sein, dass erst noch zusätzliche Module installiert werden müssen. " + ] + }, + { + "cell_type": "code", + "execution_count": 24, + "metadata": {}, + "outputs": [ + { + "data": { + "text/plain": [ + "<matplotlib.axes._subplots.AxesSubplot at 0x7f752fcd8358>" + ] + }, + "execution_count": 24, + "metadata": {}, + "output_type": "execute_result" + }, + { + "data": { + "image/png": "\n", + "text/plain": [ + "<Figure size 864x576 with 1 Axes>" + ] + }, + "metadata": { + "needs_background": "light" + }, + "output_type": "display_data" + } + ], + "source": [ + "import matplotlib.pyplot as plt\n", + "fig, ax = plt.subplots(figsize=(12,8))\n", + "stadtteile_final.plot(ax=ax, column='VG', legend=True, cmap='RdYlGn', scheme='quantiles') #OrRd #RdYlGn\n", + "aerzte_mit_stadtteil.plot(ax=ax, marker='o', color='yellow', edgecolor='black', markersize=25)" + ] + }, + { + "cell_type": "code", + "execution_count": null, + "metadata": {}, + "outputs": [], + "source": [] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.6.7" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/Tutorials/Grundlagen 1 - if-Anweisungen und Vergleiche.ipynb b/Tutorials/Grundlagen 1 - if-Anweisungen und Vergleiche.ipynb index be0b380..3185d8d 100644 --- a/Tutorials/Grundlagen 1 - if-Anweisungen und Vergleiche.ipynb +++ b/Tutorials/Grundlagen 1 - if-Anweisungen und Vergleiche.ipynb @@ -11,7 +11,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "In Python spielt die korrekte Einrückung eine wichtige Rolle. Einrückungen müssen unter anderem bei if-Anweisungen erfolgen, ansonsten kann der Code nicht korrekt erstellt (kompiliert) werden. Der folgende Ausschnitt zeigt eine if-Anweisung mit korrekter Einrückung. In den meisten Python-Entwicklungsumgebungen wird die Einrückung nach Drücken der Enter-Taste automatisch erstellt." + "In Python spielt die korrekte Einrückung eine wichtige Rolle. Einrückungen müssen unter anderem bei <b>if-Anweisungen</b> erfolgen, ansonsten kann der Code nicht korrekt erstellt werden. Der folgende Ausschnitt zeigt eine if-Anweisung mit korrekter Einrückung. In den meisten Python-Entwicklungsumgebungen wird die Einrückung nach Drücken der Enter-Taste automatisch erstellt." ] }, { @@ -37,8 +37,8 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Der Teil \"if zahl > 1\" war eine Bedingung. Hätte die Variable zahl den Wert 1 gehabt, wäre die print-Ausgabe nicht erfolgt. \n", - "Man kann aber auch festlegen, was passieren soll, wenn die Bedingung nicht erfüllt wird. Beachte auch hier die korrekte Einrückung sowie die Syntax der Anweisung (mit Doppelpunkt!)." + "Der Teil \"if zahl > 1\" war eine Bedingung. Hätte die Variable <i>zahl</i> den Wert 1 gehabt, wäre die print-Ausgabe nicht erfolgt. \n", + "Man kann aber auch festlegen, was passieren soll, wenn die Bedingung nicht erfüllt wird. Beachten Sie auch hier die korrekte Einrückung sowie die generelle Syntax der Anweisung." ] }, { @@ -66,7 +66,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Um mehrere Fälle unterscheiden zu können, gibt es das Schlüsselwort \"elif\". Außerdem können mehrere gleichzeitig geltende Bedingungen mit dem Schlüsselwort \"and\" kombiniert werden. Es gibt auch das Schlüsselwort \"or\" (hier nicht dargestellt), bei dem nur eine der beiden Bedingungen gelten muss." + "Um mehrere Fälle unterscheiden zu können, gibt es das Schlüsselwort <b>elif</b>. Außerdem können mehrere gleichzeitig geltende Bedingungen mit dem Schlüsselwort <b>and</b> kombiniert werden. Es gibt auch das Schlüsselwort <b>or</b> (hier nicht dargestellt), bei dem nur eine der beiden Bedingungen gelten muss." ] }, { @@ -98,7 +98,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Im vorigen Beispiel wurde außerdem ein doppeltes Istgleich-Zeichen verwendet. Dieses braucht man, um zwei Werte miteinander zu vergleichen. Nicht zu verwechseln mit dem einzelnen Istgleich-Zeichen: Damit weist man einer Variablen einen Wert zu." + "Im vorigen Beispiel wurde außerdem ein doppeltes Istgleich-Zeichen verwendet. Dieses braucht man, um zwei Werte miteinander zu vergleichen. Nicht zu verwechseln mit dem einzelnen Istgleich-Zeichen, mit dem man einer Variablen einen Wert zuweist!" ] }, { @@ -146,7 +146,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Die Bedingung, dass zwei Werte ungleich sind, kann man mit einem != ausdrücken:" + "Die Bedingung, dass zwei Werte ungleich sind, kann man mit einem <b>!=</b> ausdrücken:" ] }, { diff --git a/Tutorials/Grundlagen 2 - Schleifen, Listen, Dictionaries.ipynb b/Tutorials/Grundlagen 2 - Schleifen, Listen, Dictionaries.ipynb index 16c6178..560a5e0 100644 --- a/Tutorials/Grundlagen 2 - Schleifen, Listen, Dictionaries.ipynb +++ b/Tutorials/Grundlagen 2 - Schleifen, Listen, Dictionaries.ipynb @@ -12,7 +12,7 @@ "metadata": {}, "source": [ "Neben if-Anweisungen sind auch Schleifen ein wichtiges Konstrukt in Python (bzw. Programmiersprachen im Allgemeinen!).\n", - "Wir behandeln hier erstmal nur sogenannte for-Schleifen:" + "Wir behandeln hier erstmal nur sogenannte <b>for-Schleifen</b>:" ] }, { @@ -33,22 +33,22 @@ } ], "source": [ - "for i in range(0,5):\n", - " print(i)" + "for i in range(0,5): \n", + " print(i) #auch hier die Einrückung beachten" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Was ist hier passiert? Was bedeutet das i? Ganz einfach: Das i ist eine Variable. In jedem Durchlauf nimmt sie einen anderen Wert an. In diesem Fall wird von 0 bis 5 gezählt, wobei 5 nicht mit eingeschlossen ist." + "Was bedeutet das i? Ganz einfach: Das i ist eine Variable, die in jedem Durchlauf einen anderen Wert annimmt. In diesem Fall wird von 0 bis 5 gezählt, wobei 5 nicht mit eingeschlossen ist." ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Am häufigsten benötigt man for-Schleifen, um durch Listen zu laufen (iterieren). Beispielsweise eine Liste mit Strings oder eine Liste mit Zahlen oder auch gemischte Listen." + "Häufig benötigt man for-Schleifen, um Listen zu durchlaufen (<i>iterieren</i>). Z.B. eine Liste mit Strings oder eine Liste mit Zahlen oder auch gemischte Listen." ] }, { @@ -77,29 +77,29 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Wie ihr euch sicher denken könnt, ist auch x hier eine Variable. Und auch sie nimmt pro Durchlauf einen anderen Wert an. Hier sind aber keine Zahlen-Limits vorgegeben, sondern eine Liste mit 4 Werten. Die Länge der Liste kann man sich mit len() übrigens auch explizit ausgeben lassen und die Schleife alternativ so formulieren:" + "Wie Sie sich sicher denken können, ist auch x hier eine Variable. Und auch sie nimmt pro Durchlauf einen anderen Wert an. Hier sind aber keine Zahlen-Limits vorgegeben, sondern eine Liste mit 4 Werten, die bis zu ihrem Ende durchlaufen wird. Die Länge der Liste kann man sich mit <b>len()</b> übrigens auch explizit ausgeben lassen und die Schleife alternativ so formulieren:" ] }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 2, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "0\n", - "1\n", - "2\n", - "3\n" + "apfel\n", + "banane\n", + "pfirsich\n", + "weintraube\n" ] } ], "source": [ "obst = [\"apfel\", \"banane\", \"pfirsich\", \"weintraube\"]\n", "for i in range(0, len(obst)):\n", - " print(i)" + " print(obst[i])" ] }, { @@ -108,7 +108,7 @@ "source": [ "Allerdings ist die Version oben deutlich bequemer zu schreiben.\n", "\n", - "Auf ein Element an einer bestimmten Stelle in der Liste lässt sich wie folgt zugreifen:" + "Wie an diesem Beispiel auch zu erkennen ist, greift man auf eine Element an einer bestimmmten Stelle in der Liste mithilfe eckiger Klammern und dem entsprechenden Index zu:" ] }, { @@ -132,7 +132,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Warum wird hier nicht \"apfel\" ausgegeben, obwohl ich das 1. Element angegeben habe? \n", + "Warum wird hier nicht \"apfel\" ausgegeben, obwohl wir das 1. Element angegeben haben? \n", "Das liegt daran, dass in der Programmierung immer von 0 an gerechnet wird. Das erste Element einer Liste ist also Element 0:" ] }, @@ -181,14 +181,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Achtung: Das -1 ist wichtig, denn len(obst) gibt in diesem Fall ja 4 zurück. Wenn wir aber mit 0 zu zählen anfangen, steht \"weintraube\" an Stelle 3 und nicht an Stelle 4. Einen Listeneintrag mit Index 4 gibt es nicht, wir würden also einen Fehler bekommen. " + "Achtung: Das -1 ist wichtig, denn <i>len(obst)</i> gibt in diesem Fall ja 4 zurück. Wenn wir aber mit 0 zu zählen anfangen, steht \"weintraube\" an Stelle 3 und nicht an Stelle 4. Einen Listeneintrag mit Index 4 gibt es nicht, wir würden also einen Fehler bekommen. " ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Man kann einer Liste auch einen neuen Eintrag hinzufügen. Dieser wird mit \"append\" hinten angelegt:" + "Wenn man an eine Liste einen neuen Eintrag anhängen will, verwendet man <b>append</b>:" ] }, { @@ -213,12 +213,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Ebenfalls häufig verwendet werden Dictionaries. Hiermit speichert man \"Key-Value-Pairs\", also einen Schlüsselbegriff und einen zugehörigen Wert. Beispiel:" + "Ebenfalls häufig verwendet werden <b>Dictionaries</b>. Hiermit speichert man \"Key-Value-Pairs\", also einen Schlüsselbegriff und einen zugehörigen Wert. Beispiel:" ] }, { "cell_type": "code", - "execution_count": 16, + "execution_count": 3, "metadata": {}, "outputs": [ { @@ -230,7 +230,7 @@ } ], "source": [ - "vorrat = {\"apfel\": 4, \"banane\": 3, \"weintraube\": 24} #beachte die geschweiften Klammern!\n", + "vorrat = {\"apfel\": 4, \"banane\": 3, \"weintraube\": 24} #beachte die geschweiften Klammern und Anführungszeichen!\n", "anzahl_apfel = vorrat[\"apfel\"] #greife auf den Wert (value) des Schlüssels (key) \"apfel\" zu\n", "print(\"Es sind noch \"+ str(anzahl_apfel) + \" Äpfel verfügbar.\")\n" ] @@ -239,28 +239,28 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Dictionaries können nachträglich auch verändert werden:" + "Dictionaries können nachträglich verändert werden:" ] }, { "cell_type": "code", - "execution_count": 4, + "execution_count": 6, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "3\n", - "0\n" + "Bananen: 3\n", + "Bananen: 0\n" ] } ], "source": [ "vorrat = {\"apfel\": 4, \"banane\": 3, \"weintraube\": 24}\n", - "print(vorrat[\"banane\"]) #Noch gibt es Bananen...\n", + "print(\"Bananen: \"+str(vorrat[\"banane\"])) #Noch gibt es Bananen...\n", "vorrat[\"banane\"] = 0 #Jetzt nicht mehr!\n", - "print(vorrat[\"banane\"]) " + "print(\"Bananen: \"+str(vorrat[\"banane\"])) " ] }, { @@ -272,21 +272,21 @@ }, { "cell_type": "code", - "execution_count": 5, + "execution_count": 8, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ - "{'art': 'Granny Smith', 'herkunft': 'Südtirol', 'anzahl': 5}\n" + "{'art': 'Granny Smith', 'herkunft': 'Australien', 'anzahl': 5}\n" ] } ], "source": [ "apfel = {} \n", "apfel[\"art\"] = \"Granny Smith\" \n", - "apfel[\"herkunft\"] = \"Südtirol\"\n", + "apfel[\"herkunft\"] = \"Australien\"\n", "apfel[\"anzahl\"] = 5\n", "print(apfel)" ] @@ -300,7 +300,7 @@ }, { "cell_type": "code", - "execution_count": 6, + "execution_count": 9, "metadata": {}, "outputs": [ { @@ -308,7 +308,7 @@ "output_type": "stream", "text": [ "dict_keys(['art', 'herkunft', 'anzahl'])\n", - "dict_values(['Granny Smith', 'Südtirol', 5])\n" + "dict_values(['Granny Smith', 'Australien', 5])\n" ] } ], @@ -326,7 +326,7 @@ }, { "cell_type": "code", - "execution_count": 7, + "execution_count": 10, "metadata": {}, "outputs": [ { @@ -334,7 +334,7 @@ "output_type": "stream", "text": [ "Granny Smith\n", - "Südtirol\n", + "Australien\n", "5\n" ] } diff --git a/Tutorials/Grundlagen 3 - Funktionen.ipynb b/Tutorials/Grundlagen 3 - Funktionen.ipynb new file mode 100644 index 0000000..1781058 --- /dev/null +++ b/Tutorials/Grundlagen 3 - Funktionen.ipynb @@ -0,0 +1,157 @@ +{ + "cells": [ + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "# Funktionen" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Funktionen werden an dieser Stelle nur kurz behandelt, weil wir in der späteren Aufgabenstellung noch keine selbst schreiben werden. Dennoch werden wir immer wieder Funktionen aus externen Libraries verwenden und sollten deshalb Kenntnis darüber haben, was sie bedeuten.\n", + "\n", + "Funktionen dienen in erster Linie der Strukturierung und Wiederverwendung von Code. Statt den Code einer häufig ausgeführten Berechnung immer wieder aufzuschreiben, ist es viel sinnvoller, ihn in eine Funktion zu packen und dann mit einer Zeile Code einfach nur diese Funktion aufzurufen. Außerdem kann eine Funktion über eine Bibliothek auch anderen zur Verfügung gestellt werden, die sich dann die Mühe ersparen können, die Funktion selbst zu programmieren.\n", + "\n", + "Der folgende Codeabschnitt ist ein simples Beispiel für eine Funktion ohne Rückgabewert, d.h. es passiert lediglich etwas innerhalb der Funktion, aber es wird kein Ergebnis zur weiteren Verarbeitung generiert." + ] + }, + { + "cell_type": "code", + "execution_count": 8, + "metadata": {}, + "outputs": [], + "source": [ + "def hello_world():\n", + " print(\"Hello World!\")" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Aufgerufen wird die Funktion wie folgt:" + ] + }, + { + "cell_type": "code", + "execution_count": 9, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "Hello World!\n" + ] + } + ], + "source": [ + "hello_world()" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Im Folgenden eine Funktion, die über das Schlüsselwort <i>return</i> das Ergebnis der gewünschten Berechnung zurückliefert:" + ] + }, + { + "cell_type": "code", + "execution_count": 13, + "metadata": {}, + "outputs": [], + "source": [ + "def multiplikation(x, y): \n", + " return x*y" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "x und y sind spezielle Variablen, die Parameter genannt werden. Eine Funktion kann auch mehr oder weniger bzw. gar keine Parameter (wie im vorherigen Beispiel) haben. Sie werden innerhalb der Funktion zur Berechnung des gewünschten Ergebnisses verwendet." + ] + }, + { + "cell_type": "code", + "execution_count": 17, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "125\n" + ] + } + ], + "source": [ + "zahl1 = 5\n", + "zahl2 = 25\n", + "produkt = multiplikation(zahl1,zahl2)#Um mit dem Ergebnis weiterzuarbeiten, speichert man es in einer Variablen\n", + "print(produkt)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Als letztes Beispiel binden wir die <i>random</i>-Module der populären externen Library <b>numpy</b> ein, um zwei dort angebotene Funktionen zur Erstellung von Zufallszahlen zu nutzen. " + ] + }, + { + "cell_type": "code", + "execution_count": 26, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + "-0.3754555993388598\n", + "[84 73 63 91]\n" + ] + } + ], + "source": [ + "import numpy.random as npr\n", + "zufallszahl = npr.normal() #Aufruf der Funktion \"normal()\", die eine einzelne Zufallszahl generiert\n", + "print(zufallszahl)\n", + "numpy_array = npr.randint(low=1, high=100, size=4) #generiere vier Zufallszahlen zwischen 1 und 100\n", + "print(numpy_array)\n" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Die erste Funktion erfordert keinen Parameter. Sie ist so angelegt, dass sie eine Zahl zwischen 0 und 1 zurückliefert. Für die zweite Funktion, <i>randint</i>, gibt es einen notwendigen (<i>low</i>) und drei optionale Parameter, wovon hier zwei genutzt wurden (siehe auch die Dokumentation unter https://docs.scipy.org/doc/numpy-1.15.1/reference/generated/numpy.random.randint.html). Wird ein optionaler Parameter nicht gesetzt, so verwendet die Funktion einen internen Standardwert. Beispielsweise würde ohne die Angabe von <i>size=4</i> nur eine Zahl zurückgeliefert. Um übergebene Parameter korrekt zuordnen zu können, werden hier ihre Namen in der Form <i>parametername=</i> mitgeliefert." + ] + } + ], + "metadata": { + "kernelspec": { + "display_name": "Python 3", + "language": "python", + "name": "python3" + }, + "language_info": { + "codemirror_mode": { + "name": "ipython", + "version": 3 + }, + "file_extension": ".py", + "mimetype": "text/x-python", + "name": "python", + "nbconvert_exporter": "python", + "pygments_lexer": "ipython3", + "version": "3.6.7" + } + }, + "nbformat": 4, + "nbformat_minor": 2 +} diff --git a/Tutorials/Grundlagen 3 - Pandas DataFrames.ipynb b/Tutorials/Grundlagen 4 - Pandas DataFrames.ipynb similarity index 67% rename from Tutorials/Grundlagen 3 - Pandas DataFrames.ipynb rename to Tutorials/Grundlagen 4 - Pandas DataFrames.ipynb index 9e1e1a7..a423d97 100644 --- a/Tutorials/Grundlagen 3 - Pandas DataFrames.ipynb +++ b/Tutorials/Grundlagen 4 - Pandas DataFrames.ipynb @@ -4,21 +4,21 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "## DataFrames" + "## Pandas DataFrames" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Die zuvor verwendeten Listen und Dictionaries sind interner Teil von Python und können ohne weiteres sofort verwendet werden. Es gibt aber auch Module von externen Code-\"Bibliotheken\"/Libraries, die man einbinden kann und die noch viele weitere Funktionalitäten anbieten, je nachdem was man gerade braucht. Ein Beispiel sind DataFrames von der Python-Bibliothek \"Pandas\". Bei DataFrames handelt es sich um eine spezielle Datenstruktur, die mit Tabellen vergleichbar sind. In der Handhabung ähneln sie aber auch den bereits behandelten Dictionaries.\n", + "Die zuvor verwendeten Listen und Dictionaries sind interner Teil von Python und können ohne weiteres sofort verwendet werden. Es gibt aber auch Module von externen Code-\"Bibliotheken\"/Libraries, die man einbinden kann und die noch viele weitere Funktionalitäten anbieten, je nachdem was man gerade braucht. Ein Beispiel sind <b>DataFrames</b> von der Python-Bibliothek \"Pandas\". Bei DataFrames handelt es sich um eine spezielle Datenstruktur, die mit Tabellen vergleichbar sind. In der Handhabung ähneln sie zudem den bereits behandelten Dictionaries.\n", "\n", - "Grundsätzlich gilt: Die Online-API-Referenz der entsprechenden Bibliothek gibt detailliert Auskunft darüber, wie die Syntax der angebotenen Komponenten aussehen muss, welche Funktionalitäten vorhanden sind, etc. In unserem Fall schaut man also im Zweifel unter https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html nach." + "Grundsätzlich gilt: Die Online-Dokumentation der entsprechenden Bibliothek gibt detailliert Auskunft darüber, wie die Syntax der angebotenen Komponenten aussehen muss, welche Funktionalitäten vorhanden sind, etc. In unserem Fall schaut man also im Zweifel unter https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html nach." ] }, { "cell_type": "code", - "execution_count": 32, + "execution_count": 2, "metadata": {}, "outputs": [ { @@ -33,7 +33,7 @@ ], "source": [ "import pandas as pd #hiermit binden wir die externe Bibliothek Pandas ein und kürzen sie ab sofort mit pd ab\n", - "df = pd.DataFrame() #nun können wir ein DataFrame von Pandas erzeugen. Beachte die Syntax!\n", + "df = pd.DataFrame() #nun können wir ein neues DataFrame von Pandas erzeugen.\n", "print(df)" ] }, @@ -46,7 +46,7 @@ }, { "cell_type": "code", - "execution_count": 33, + "execution_count": 3, "metadata": {}, "outputs": [ { @@ -75,12 +75,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "\"NaN\" steht für \"Not a Number\" und bedeutet hier, dass die Tabelle noch keine gültigen Daten enthält. Es gibt übrigens viele verschiedene Möglichkeiten, ein DataFrame anzulegen und auch mit Werten zu füllen. Hier ein Beispiel mit einem Dictionary. Das 0 und 1 am linken Rand ist ein namenloser Zeilen-Index, der von 0 aufwärts gezählt wird." + "\"NaN\" steht für \"Not a Number\" und bedeutet hier, dass die Tabelle noch keine gültigen Daten enthält. Es gibt übrigens viele verschiedene Möglichkeiten, ein DataFrame anzulegen und mit Werten zu füllen. Hier ein Beispiel mit einem Dictionary mit Spaltennamen als Keys und Listen als Werten für die Spalte. Das 0 und 1 am linken Rand ist ein namenloser Zeilen-Index, der von 0 aufwärts gezählt wird." ] }, { "cell_type": "code", - "execution_count": 34, + "execution_count": 4, "metadata": {}, "outputs": [ { @@ -103,12 +103,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Oder auf Grundlage einer Liste von Dictionaries:" + "Oder auf Grundlage einer Liste von Dictionaries, die jeweils die Werte für eine Zeile enthalten:" ] }, { "cell_type": "code", - "execution_count": 35, + "execution_count": 5, "metadata": {}, "outputs": [ { @@ -131,12 +131,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Oder auf Grundlage einer Liste von Listen:" + "Oder stattdessen auf Grundlage einer Liste von Listen, die ebenfalls jeweils die Zeilenwerte definieren:" ] }, { "cell_type": "code", - "execution_count": 36, + "execution_count": 6, "metadata": {}, "outputs": [ { @@ -161,12 +161,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "In vielen Fällen legen wir ein DataFrame aber gar nicht mühsam selbst an, sondern laden es aus einer anderen Datenquelle. Zum Beispiel aus einer CSV-Datei (CSV = Comma Separated Values, also eine einfache Tabelle, die durch Kommas getrennt wird)." + "In vielen Fällen legen wir ein DataFrame aber gar nicht mühsam selbst an, sondern laden es aus einer anderen Datenquelle. Zum Beispiel aus einer <b>CSV-Datei</b> (CSV = Comma Separated Values, also eine einfache Tabelle, die durch Kommas getrennt wird). Dazu müssen wir den Pfad zur Datei sowie den Dateinamen einschließlich der Dateiendung eingeben. In unserem Fall navigieren wir mithilfe der ../-Syntax erstmal aus unserem aktuellen Verzeichnis heraus, um dann auf die gewünschte Datei im Nachbarordner <i>Daten</i> zuzugreifen." ] }, { "cell_type": "code", - "execution_count": 37, + "execution_count": 7, "metadata": {}, "outputs": [ { @@ -219,7 +219,7 @@ }, { "cell_type": "code", - "execution_count": 38, + "execution_count": 8, "metadata": {}, "outputs": [ { @@ -253,7 +253,7 @@ }, { "cell_type": "code", - "execution_count": 39, + "execution_count": 9, "metadata": {}, "outputs": [ { @@ -264,6 +264,14 @@ "Columns: [ID, Fachgebiet1, Adresse, PLZ, Privatarzt, Stadt, Land]\n", "Index: []\n" ] + }, + { + "name": "stderr", + "output_type": "stream", + "text": [ + "/opt/tljh/user/lib/python3.6/site-packages/pandas/core/ops/__init__.py:1115: FutureWarning: elementwise comparison failed; returning scalar instead, but in the future will perform elementwise comparison\n", + " result = method(y)\n" + ] } ], "source": [ @@ -280,7 +288,7 @@ }, { "cell_type": "code", - "execution_count": 40, + "execution_count": 10, "metadata": {}, "outputs": [ { @@ -306,12 +314,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Tatsächlich wird PLZ als Ganzzahl gespeichert. Das erklärt, wieso unsere Abfrage oben mit den String-Anführungszeichen nicht funktioniert hat. Richtig wäre es so:" + "Tatsächlich wird PLZ als Ganzzahl gespeichert. Das erklärt, wieso unsere Abfrage mit den String-Anführungszeichen nicht funktioniert hat. Richtig wäre es so:" ] }, { "cell_type": "code", - "execution_count": 41, + "execution_count": 11, "metadata": {}, "outputs": [ { @@ -340,7 +348,7 @@ }, { "cell_type": "code", - "execution_count": 42, + "execution_count": 12, "metadata": {}, "outputs": [ { @@ -364,16 +372,7 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "DataFrames können anschließend auch einfach wieder als CSV-Dateien gespeichert werden:" - ] - }, - { - "cell_type": "code", - "execution_count": 43, - "metadata": {}, - "outputs": [], - "source": [ - "selektion.to_csv(\"../Daten/Selektion.csv\") " + "Hinweis: Mithilfe von <b>df[\"PLZ\"] = df[\"PLZ\"].astype(str)</b> könnten wir sogar den Datentyp der kompletten Spalte ändern. Im Moment wollen wir sie aber noch als Ganzzahl belassen." ] }, { @@ -385,7 +384,7 @@ }, { "cell_type": "code", - "execution_count": 44, + "execution_count": 14, "metadata": {}, "outputs": [ { @@ -417,14 +416,14 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Mit head() (bzw. tail()) kann man sich die ersten (bzw. letzten) Zeilen eines großen DataFrames ausgegeben lassen.\n", + "Mit <b>head()</b> (bzw. <b>tail()</b>) kann man sich die ersten (bzw. letzten) Zeilen eines großen DataFrames ausgegeben lassen.\n", "\n", "Wir legen nun ein neues Feld mit Namen \"Bundesland\" an und füllen es einheitlich mit dem Wert \"Hamburg\". Nebenbei wollen wir \"Fachgebiet1\" in \"Fachgebiet\" umbenennen:" ] }, { "cell_type": "code", - "execution_count": 45, + "execution_count": 15, "metadata": {}, "outputs": [ { @@ -457,12 +456,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Warum hat die Umbennung nicht funktioniert? Ganz einfach, die Funktion \"rename()\" nimmt eine Änderung vor und liefert als Ergebnis den geänderten DataFrame zurück, aber diesen haben wir in keiner Variable gespeichert. Die Änderung hat somit keine Auswirkung. Folgendes funktioniert aber:" + "Warum hat die Umbennung nicht funktioniert? Ganz einfach, die Funktion <b>rename()</b> nimmt eine Änderung vor und liefert als Ergebnis einen neuen, geänderten DataFrame zurück, aber diesen haben wir in keiner Variable gespeichert. Die Änderung hat somit keine Auswirkung. Folgendes funktioniert aber:" ] }, { "cell_type": "code", - "execution_count": 46, + "execution_count": 16, "metadata": {}, "outputs": [ { @@ -494,12 +493,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Ebenso werden alle vorgenommenen Änderungen an der Original-Datei verloren gehen, sobald wir unser Programm beenden! Um die Tabelle dauerhaft zu speichern, sollte man sie am Ende also nochmal explizit als Datei abspeichern (z.B. mit to_csv), wie oben gezeigt." + "Achtung: Es werden alle vorgenommenen Änderungen verloren gehen, sobald wir unser Programm beenden! Um die Tabelle dauerhaft zu speichern, sollte man sie am Ende also nochmal explizit als Datei exportieren (z.B. mit <b>to_csv</b>). Im Folgenden speichern wir nur die ersten fünf Zeilen unserer Tabelle in einer neuen Datei namens \"Selektion\"." ] }, { "cell_type": "code", - "execution_count": 47, + "execution_count": 17, "metadata": {}, "outputs": [], "source": [ @@ -511,13 +510,90 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Eine Spalte mit nur einem festen Wert anzulegen, war nicht so schwer. Aber was, wenn wir unterschiedliche Werte abhängig von einer anderen Spalte setzen wollen?\n", - "Das ist mit DataFrames nicht ganz so einfach und erfordert z.T. recht komplizierte Syntax. Um das zu umgehen, kann man auch einfach eine leere Liste anlegen, dann durch das DataFrame durchiterieren und führ jede Zeile ein neues Dictionary mit den gewünschten Werten anlegen, das dann an die Liste angehängt wird. Entweder erstellt man das Dictionary komplett neu, oder man nutzt die bereits vorhandenen Zeilenwerte und ergänzt diese nur." + "Ähnlich wie beim Anlegen der \"Bundesland\"-Spalte kann man auch Spalten anlegen, die das Ergebnis einer mathematischen Berechnung zwischen anderen Spalten sind - vorausgesetzt, sie sind als Zahlenformat gespeichert. Um das auszuprobieren, legen wir eine neue Spalte \"komische_berechnung\" an, die das Ergebnis der Division der Werte in der Spalte \"ID\" durch die Werte in der Spalte \"PLZ\" beinhaltet. Diese Berechnung ergibt keinen Sinn, soll aber auch nur das Prinzip verdeutlichen." + ] + }, + { + "cell_type": "code", + "execution_count": 28, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Unnamed: 0 ID Fachgebiet Adresse PLZ \\\n", + "0 0 2 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 22607 \n", + "1 1 52 Hals-Nasen-Ohrenheilkunde Neuer Wall 43 20354 \n", + "2 2 102 Hals-Nasen-Ohrenheilkunde Möllner Landstr. 26 a 22111 \n", + "3 3 125 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 73 22041 \n", + "4 4 148 Hals-Nasen-Ohrenheilkunde Sand 35 21073 \n", + "\n", + " Privatarzt Stadt Land Bundesland komische_berechnung \n", + "0 NaN Hamburg Germany Hamburg 0.000088 \n", + "1 NaN Hamburg Germany Hamburg 0.002555 \n", + "2 NaN Hamburg Germany Hamburg 0.004613 \n", + "3 NaN Hamburg Germany Hamburg 0.005671 \n", + "4 NaN Hamburg Germany Hamburg 0.007023 \n" + ] + } + ], + "source": [ + "df[\"komische_berechnung\"] = df[\"ID\"]/df[\"PLZ\"]\n", + "print(df)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Eine neue Spalte auf diese Weise anzulegen, war ziemlich einfach. Es sollte erwähnt werden, dass es noch andere Methoden gibt, die auch auf eine korrekte Indizierung der neu angelegten Spalten im DataFrame Wert legen. Aber für unseren Bedarf ist die Methode oben erstmal ausreichend. \n", + "\n", + "Nun löschen wir diese Spalte lieber wieder:" + ] + }, + { + "cell_type": "code", + "execution_count": 29, + "metadata": {}, + "outputs": [ + { + "name": "stdout", + "output_type": "stream", + "text": [ + " Unnamed: 0 ID Fachgebiet Adresse PLZ \\\n", + "0 0 2 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 22607 \n", + "1 1 52 Hals-Nasen-Ohrenheilkunde Neuer Wall 43 20354 \n", + "2 2 102 Hals-Nasen-Ohrenheilkunde Möllner Landstr. 26 a 22111 \n", + "3 3 125 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 73 22041 \n", + "4 4 148 Hals-Nasen-Ohrenheilkunde Sand 35 21073 \n", + "\n", + " Privatarzt Stadt Land Bundesland \n", + "0 NaN Hamburg Germany Hamburg \n", + "1 NaN Hamburg Germany Hamburg \n", + "2 NaN Hamburg Germany Hamburg \n", + "3 NaN Hamburg Germany Hamburg \n", + "4 NaN Hamburg Germany Hamburg \n" + ] + } + ], + "source": [ + "df = df.drop(\"komische_berechnung\", 1) #Hierbei weist 1 auf eine Spalte hin und 0 auf eine Zeile. \n", + "print(df)" + ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Es gibt auch Fälle, da wollen wir eine Spalte anlegen, die in etwas komplexerer Abhängigkeit zu einer anderen Spalte steht, oder wir wollen bestehende Werte in Abhängigkeit von irgendwelchen anderen Informationen updaten. So etwas kann schnell eine relativ komplizierte und unintutive Syntax erfordern.\n", + "\n", + "Um das zu umgehen, können wir auch einfach unser bestehendes Wissen über Schleifen, Listen und Dictionaries nutzen. Wir legen zunächst eine leere Liste anlegen, iterieren dann durch das DataFrame und legen für jede Zeile ein neues Dictionary mit den gewünschten Zeilen-Werten an. Entweder erstellt man das Dictionary komplett neu, oder man nutzt die bereits vorhandenen Zeilenwerte und ergänzt diese nur. Danach fügt man das Dictionary der Liste hinzu und am Ende erstellt man aus dieser Liste ein neues DataFrame. Der folgende Codeausschnitt verdeutlicht, wie man durch ein DataFrame iteriert:" ] }, { "cell_type": "code", - "execution_count": 48, + "execution_count": 47, "metadata": {}, "outputs": [ { @@ -589,7 +665,7 @@ ], "source": [ "df = pd.DataFrame(pd.read_csv(\"../Daten/Selektion.csv\", sep=','))\n", - "for index, data in df.iterrows(): # Syntax, um durch ein DataFrame zu iterieren\n", + "for index, data in df.iterrows(): # Syntax, um durch die Zeilen (Rows = Reihen = Zeilen) eines DataFrame zu iterieren\n", " print(index) #Index der aktuellen Zeile\n", " print(data) #Daten in dieser Zeile\n", " print(type(data)) " @@ -599,12 +675,12 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Der Datentyp \"Series\" sagt uns noch nichts. Es reicht aber, zu wissen, dass man eine Series auch leicht in ein Dictionary umwandeln kann." + "Der Datentyp \"Series\" sagt uns noch nichts. Wie bei einem Dictionary kann man jedoch z.B. mit data[\"Adresse\"] auf einen Series-Eintrag zugreifen. Außerdem lässt sich die komplette Series auch einfach in ein Dictionary umwandeln:" ] }, { "cell_type": "code", - "execution_count": 49, + "execution_count": 53, "metadata": {}, "outputs": [ { @@ -628,66 +704,40 @@ "cell_type": "markdown", "metadata": {}, "source": [ - "Wenn wir nun also noch eine Spalte mit eigenen Werten zu unserer Tabelle hinzufügen wollen, können wir dieses Dictionary nehmen und in gewohnter Art um einen Eintrag ergänzen. In unserem Fall legen wir eine neue Spalte \"komische_berechnung\" an, die die Postleitzahl durch die ID teilt. Diese Berechnung ergibt keinerlei Sinn, soll aber auch nur das Prinzip verdeutlichen." + "Angenommen, wir haben nun außerdem ein komplett separates Dictionary gegeben..." ] }, { "cell_type": "code", - "execution_count": 50, + "execution_count": 54, "metadata": {}, - "outputs": [ - { - "name": "stdout", - "output_type": "stream", - "text": [ - "[{'Unnamed: 0': 0, 'ID': 2, 'Fachgebiet': 'Hals-Nasen-Ohrenheilkunde', 'Adresse': 'Waitzstr. 7', 'PLZ': 22607, 'Privatarzt': nan, 'Stadt': 'Hamburg', 'Land': 'Germany', 'Bundesland': 'Hamburg', 'komische_berechnung': 11303.5}, {'Unnamed: 0': 1, 'ID': 52, 'Fachgebiet': 'Hals-Nasen-Ohrenheilkunde', 'Adresse': 'Neuer Wall 43', 'PLZ': 20354, 'Privatarzt': nan, 'Stadt': 'Hamburg', 'Land': 'Germany', 'Bundesland': 'Hamburg', 'komische_berechnung': 391.4230769230769}, {'Unnamed: 0': 2, 'ID': 102, 'Fachgebiet': 'Hals-Nasen-Ohrenheilkunde', 'Adresse': 'Möllner Landstr. 26 a', 'PLZ': 22111, 'Privatarzt': nan, 'Stadt': 'Hamburg', 'Land': 'Germany', 'Bundesland': 'Hamburg', 'komische_berechnung': 216.77450980392157}, {'Unnamed: 0': 3, 'ID': 125, 'Fachgebiet': 'Hals-Nasen-Ohrenheilkunde', 'Adresse': 'Wandsbeker Marktstr. 73', 'PLZ': 22041, 'Privatarzt': nan, 'Stadt': 'Hamburg', 'Land': 'Germany', 'Bundesland': 'Hamburg', 'komische_berechnung': 176.328}, {'Unnamed: 0': 4, 'ID': 148, 'Fachgebiet': 'Hals-Nasen-Ohrenheilkunde', 'Adresse': 'Sand 35', 'PLZ': 21073, 'Privatarzt': nan, 'Stadt': 'Hamburg', 'Land': 'Germany', 'Bundesland': 'Hamburg', 'komische_berechnung': 142.38513513513513}]\n", - ".................................................................\n", - " Unnamed: 0 ID Fachgebiet Adresse PLZ \\\n", - "0 0 2 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 22607 \n", - "1 1 52 Hals-Nasen-Ohrenheilkunde Neuer Wall 43 20354 \n", - "2 2 102 Hals-Nasen-Ohrenheilkunde Möllner Landstr. 26 a 22111 \n", - "3 3 125 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 73 22041 \n", - "4 4 148 Hals-Nasen-Ohrenheilkunde Sand 35 21073 \n", - "\n", - " Privatarzt Stadt Land Bundesland komische_berechnung \n", - "0 NaN Hamburg Germany Hamburg 11303.500000 \n", - "1 NaN Hamburg Germany Hamburg 391.423077 \n", - "2 NaN Hamburg Germany Hamburg 216.774510 \n", - "3 NaN Hamburg Germany Hamburg 176.328000 \n", - "4 NaN Hamburg Germany Hamburg 142.385135 \n" - ] - } - ], + "outputs": [], "source": [ - "neu = list() #Synonym zu neu = [], d.h. Erstellen einer neuen leeren Liste\n", - "for index, data in df.iterrows(): \n", - " values = data.to_dict() #erhalte die Werte in dieser Zeile als Dictionary\n", - " values[\"komische_berechnung\"] = values[\"PLZ\"]/values[\"ID\"] #füge dem Dictionary einen neuen Eintrag hinzu\n", - " neu.append(values)\n", - "print(neu) #Liste mit Dictionaries!\n", - "df = pd.DataFrame(neu) #aus einer Liste mit Dictionaries können wir wieder ein DataFrame basteln!\n", - "print(\".................................................................\")\n", - "print(df)" + "zusatz_infos = {\"Waitzstr. 7\": \"Othmarschen\", \n", + " \"Neuer Wall 43\" : \"Neustadt\",\n", + " \"Sand 35\" : \"Harburg\" }" ] }, { "cell_type": "markdown", "metadata": {}, "source": [ - "Wichtig: Hätten wir nur \"values\" verändert, aber nicht in einer neuen Liste gespeichert, so hätte das das DataFrame nicht verändert! Mit anderen Worten, ein DataFrame kann während des Durchiterierens nicht so einfach verändert werden - besser liest man nur die nötigen Werte aus und legt damit dynamisch ein neues an.\n", + "... und wollen eine neue Spalte \"Stadtteil\" zu unserer Tabelle hinzufügen, die ihre Informationen aus diesem Dictionary bezieht, sofern vorhanden. \n", "\n", - "Wollen wir nun unsere \"komische_berechnung\"-Spalte wieder löschen, gehen wir so vor:" + "In jedem Schleifen-Durchgang lesen wir also die Adresse aus dem DataFrame und nutzen Sie als Schlüssel für das Dictionary, um den zugehörigen Wert zu erhalten. Für den Fall, dass der Schlüssel nicht existiert, setzen wir den Wert auf \"Unbekannt\"." ] }, { "cell_type": "code", - "execution_count": 51, + "execution_count": 59, "metadata": {}, "outputs": [ { "name": "stdout", "output_type": "stream", "text": [ + "[{'Unnamed: 0': 0, 'ID': 2, 'Fachgebiet': 'Hals-Nasen-Ohrenheilkunde', 'Adresse': 'Waitzstr. 7', 'PLZ': 22607, 'Privatarzt': nan, 'Stadt': 'Hamburg', 'Land': 'Germany', 'Bundesland': 'Hamburg', 'Stadtteil': 'Othmarschen'}, {'Unnamed: 0': 1, 'ID': 52, 'Fachgebiet': 'Hals-Nasen-Ohrenheilkunde', 'Adresse': 'Neuer Wall 43', 'PLZ': 20354, 'Privatarzt': nan, 'Stadt': 'Hamburg', 'Land': 'Germany', 'Bundesland': 'Hamburg', 'Stadtteil': 'Neustadt'}, {'Unnamed: 0': 2, 'ID': 102, 'Fachgebiet': 'Hals-Nasen-Ohrenheilkunde', 'Adresse': 'Möllner Landstr. 26 a', 'PLZ': 22111, 'Privatarzt': nan, 'Stadt': 'Hamburg', 'Land': 'Germany', 'Bundesland': 'Hamburg', 'Stadtteil': 'Unbekannt'}, {'Unnamed: 0': 3, 'ID': 125, 'Fachgebiet': 'Hals-Nasen-Ohrenheilkunde', 'Adresse': 'Wandsbeker Marktstr. 73', 'PLZ': 22041, 'Privatarzt': nan, 'Stadt': 'Hamburg', 'Land': 'Germany', 'Bundesland': 'Hamburg', 'Stadtteil': 'Unbekannt'}, {'Unnamed: 0': 4, 'ID': 148, 'Fachgebiet': 'Hals-Nasen-Ohrenheilkunde', 'Adresse': 'Sand 35', 'PLZ': 21073, 'Privatarzt': nan, 'Stadt': 'Hamburg', 'Land': 'Germany', 'Bundesland': 'Hamburg', 'Stadtteil': 'Harburg'}]\n", + ".................................................................\n", " Unnamed: 0 ID Fachgebiet Adresse PLZ \\\n", "0 0 2 Hals-Nasen-Ohrenheilkunde Waitzstr. 7 22607 \n", "1 1 52 Hals-Nasen-Ohrenheilkunde Neuer Wall 43 20354 \n", @@ -695,19 +745,36 @@ "3 3 125 Hals-Nasen-Ohrenheilkunde Wandsbeker Marktstr. 73 22041 \n", "4 4 148 Hals-Nasen-Ohrenheilkunde Sand 35 21073 \n", "\n", - " Privatarzt Stadt Land Bundesland \n", - "0 NaN Hamburg Germany Hamburg \n", - "1 NaN Hamburg Germany Hamburg \n", - "2 NaN Hamburg Germany Hamburg \n", - "3 NaN Hamburg Germany Hamburg \n", - "4 NaN Hamburg Germany Hamburg \n" + " Privatarzt Stadt Land Bundesland Stadtteil \n", + "0 NaN Hamburg Germany Hamburg Othmarschen \n", + "1 NaN Hamburg Germany Hamburg Neustadt \n", + "2 NaN Hamburg Germany Hamburg Unbekannt \n", + "3 NaN Hamburg Germany Hamburg Unbekannt \n", + "4 NaN Hamburg Germany Hamburg Harburg \n" ] } ], "source": [ - "df = df.drop(\"komische_berechnung\", 1) #Hierbei weist 1 auf eine Spalte hin und 0 auf eine Zeile. \n", + "liste_mit_zeilen = list() #Synonym zu neu = [], d.h. Erstellen einer neuen leeren Liste\n", + "for index, data in df.iterrows(): \n", + " zeile = data.to_dict() #erhalte die bereits bestehenden Werte in dieser Zeile als Dictionary\n", + " if zeile[\"Adresse\"] in zusatz_infos.keys(): #falls dieser Schlüssel im separaten Dictionary existiert...\n", + " zeile[\"Stadtteil\"] = zusatz_infos[data[\"Adresse\"]] #... füge den zugehörigen Wert zur Zeile hinzu \n", + " else:\n", + " zeile[\"Stadtteil\"] = \"Unbekannt\"\n", + " liste_mit_zeilen.append(zeile)\n", + "print(liste_mit_zeilen) #Liste mit Zeilen in Form von Dictionaries!\n", + "df = pd.DataFrame(liste_mit_zeilen) #aus einer Liste mit Dictionaries können wir wieder ein DataFrame basteln!\n", + "print(\".................................................................\")\n", "print(df)" ] + }, + { + "cell_type": "markdown", + "metadata": {}, + "source": [ + "Wichtig: Hätten wir versucht, während des Schleifendurchlaufs Teile der \"data\"-Series und damit des DataFrames direkt zu verändern, anstatt nur Informationen zu extrahieren und in einer neuen Liste zu speichern, so hätte das keine Auswirkungen auf das DataFrame gehabt. Mit anderen Worten, ein DataFrame kann während des Durchiterierens nicht auf diese Weise verändert werden. Es gibt zwar noch diverse andere Möglichkeiten zum Manipulieren von DataFrames, aber wie bereits erwähnt erfordern diese meist das Wissen um spezielle Syntax." + ] } ], "metadata": { -- GitLab