Big Data: Introducción a la ciencia de datos con Python
OBJETIVOS
El curso busca introducir a los alumnos al mundo del procesamiento de datos utilizando python,
para lo cual es necesario una pequeña introducción al lenguaje, para luego profundizar en los
módulos de adquicisión, procesamiento y visualización de datos
FUNDAMENTACION
El curso busca presentar los conceptos básicos del procesamiento de grandes volúmenes de
datos con python.
Python es un potente lenguaje de programación, utilizado para un sinfín de tareas en la
industria y gobierno. Pero en los últimos años, el desarrollo de módulos para el procesamiento
de información lo ha situado como la herramienta por defecto para procesar grandes
volúmenes de datos.
Python es software libre permitiendo a las organizaciones públicas y a los estudiantes, utilizarlo
sin la necesidad de comprar licencias. Además, tiene una gran comunidad de desarrolladores
que mejoran día a día cada una de sus principales características.
Su relativa facilidad de uso ha hecho posible que usuarios ajenos al ambiente IT lo utilicen y
participen de su desarrollo.
El curso busca introducir a los alumnos al mundo del procesamiento de datos utilizando python,
para lo cual es necesario una pequeña introducción al lenguaje, para luego profundizar en los
módulos de adquicisión, procesamiento y visualización de datos.
No se requerien conocimientos previos de programación, pero si es necesario que el alumno
este abierto a cambiar el paradigma de la planilla de cálculo por uno donde los datos no se
visualizan en una grilla y están 100% a la vista, ganando en velocidad y capacidad de análisis.
En el curso se trabajará con bases de datos generadas, principalmente, por el sector público.
Se procesarán datos del presupuesto nacional, del COVID19, y diversas bases de datos
públicas presentadas en el portal https://www.datos.gob.ar
La potencialidad del lenguaje permite trabajar con cualquier _data warehouse del sector
público, adquiriendo datos, procesandolos, y realizando recomendaciones de política pública.
La cantidad de datos a procesar deja de ser una restricción y potencia la calidad de la
información que llega a los tomadores de decisión.
Es posible instalar todo el entorno que se utiliza en el curso de manera local, pero para faciliar
la iniciación en el lenguaje, se utilizará la plataforma Colab de Google (también gratuita), a la
que se accese con sólo tener un navegador.
Los notebooks y bases de datos actualizados del curso están disponibles en el Github del
curso, un repositorio muy usado en el mundo de la programación y ciencia de datos para
intercambiar información.
TEMARIO
Módulo I: Introducción a la programación en Python
Cómo instalar Python – Archivos de programa en Python
Jupyter Notebooks- Variables y tipos
Operadores y comparaciones- Tipos compuestos (cadenas, listas, tuplas)
Control de flujo-Ciclos
Funciones- Clases
Módulos- Excepciones
Módulo II: Exploración y procesamiento de datos
Librerías principales – Importación de datos: txt, csv, xlsx, y zip.
Inspección inicial de la información. – Manejo básico pandas
Selección de filas y/o columnas, selección condicionada. – Funciones apply, mapping and merge.
Funciones de manejo de texto. – Creación de muestras y subconjuntos de data frames: subsets and samples.
Módulo III: Paquetes Gráficos
Introducción a plotly y matplot y demás librerías gráficas. -Gráficos base: histogramas, scatter plot, bar plot, box plot. Otras herramientas para visualización de datos: manejo de mapas. Personalización de gráficos: ejes, colores, títulos. Exportación de gráficos.
Módulo IV: Georreferenciación
Georreferenciación de información con el módulo Geopandas. Introducción a las proyecciones y formatos de capas con información espacial (shape,
GeoJson). Puntos y mapas coropleticos. Operaciones de análisis espacial. Isocronas
BIBLIOGRAFIA
Bibliografía y sitios recomendados
Python for Data Analysis: Data Wrangling with Pandas, NumPy, and IPython, Wes
McKinney. Del creador de la librería Pandas, un libro detallado sobre su uso
http://www.python.org – The official web page of the Python programming language.
http://www.python.org/dev/peps/pep-0008 – Guía de estilo para la programación en Python.
http://www.greenteapress.com/thinkpython/ – Libro gratuito sobre Python.
Python Essential Reference – Un buen libro de referencia sobre programación en Python.
Recursos adicionales:
Kaggle: Sitio con datagrames y notebooks preparados para practicar EDA y machine
learning. Bases de datos de todo tipo, con código comentado. Recomendado para
practicar con datos reales.
Google Colab: Editor y ejecutor de notebooks en la nube. No hace falta instalar nada local.
Gratis.
Corey Schafer: Excelente fuente de tutoriales sobre Python.
Keith Galli: Completo tutorial de Pandas
• DOCENTE
Licenciado Matias Grandi
CLASES
4 encuentros sincrónicos más material de lectura
- Martes 23 de Abril – 19hs
- Martes 30 de Abril – 19hs
- Martes 7 de Mayo – 19hs
- Martes 14 de Mayo – 19hs
DESTINATARIOS
Abierto a todo público
ARANCEL
- Valor Público en Gral $ 57,700
- Socios ASAP y/o GRADUADOS FCE 50% de DESCUENTO abonando vía transferencia bancaria Válido hasta 16/04
REQUISITOS PARA CERTIFICADO DE ASISTENCIA
vista o asistencia a las clases y lectura de materiales
ORGANIZA:
Centro de Graduados Económicas UNLP www.graduados.net.ar
ASAP – Filial Provincia de Buenos Aires https://www.asap.org.ar/
SUSCRIBITE A NUESTRO CANAL para ver CONTENIDOS ABIERTO y GRATUITOS