Ciencia de Datos e Inteligencia de Negocios

Máster. Curso 2024/2025.

GESTION Y EXPLOTACION DE ALMACENES DE DATOS - 610504

Curso Académico 2024-25

Datos Generales

SINOPSIS

COMPETENCIAS

Generales
RA2- Conocer los fundamentos de los lenguajes de programación más utilizados en Ciencia de datos
RA9 - Comprender los fundamentos de almacenamiento y tratamiento de grandes bases de datos
RA12 - Seleccionar pertinentemente las fuentes e instrumentos de información disponible, creando una base de datos de estructura ágil y de fácil consulta
RA13 – Reunir, depurar y transformar los datos que la empresa almacena, en información estructurada y coherente para contrastar hipótesis que traten de responder a preguntas de investigación dentro del ámbito de la Inteligencia de Negocios
RA14 - Utilizar los distintos modelos de almacenamiento de datos y los sistemas de gestión de las bases de datos y utilizar un lenguaje de programación de definición, consulta y manipulación de los mismos
RA25 - Investigar en nuevas metodologías y técnicas para la gestión y explotación de grandes bases de datos con las que crear
conocimiento que apoye la toma de decisiones en la dirección estratégica y en la inteligencia empresarial
RA26 - Comunicar las conclusiones y los conocimientos y razones últimas que las sustentan a públicos especializados y no especializados de un modo claro y sin ambigüedades
Específicas
Identificar los elementos presentes en un problema real.
Conocer en profundidad los sistemas de gestión de bases de datos relacionales y orientados a documento.
Entender las distintas fuentes de información de una compañía y cómo podemos integrar toda esta en almacenes de datos.
Realizar un análisis de la WEB e integrar dicha información con la generada a través de los sistemas tradicionales para ayudar en la toma de decisiones.
Conocer en profundidad el lenguaje Python como herramienta de trabajo en modelos analíticos y predictivos.
Conceptualizar, diseñar e implementar soluciones que permitan adaptar a casos reales soluciones basadas en el aprendizaje automático.

ACTIVIDADES DOCENTES

Clases teóricas
50%.
Clases prácticas
50%.
TOTAL
100%.

Presenciales

1,92

No presenciales

4,08

Semestre

2

Breve descriptor:

Estudio de técnicas para la obtención de información (análisis y minería de datos) a partir de distintas fuentes de datos: bases de datos relacionales, orientadas a documento, páginas web, escucha en redes sociales... y aplicar estas técnicas a diferentes campos científicos y empresariales.

Requisitos

Es importante haber cursado alguna asignatura de bases de datos que incluya el estudio del modelo relacional y el uso práctico del lenguaje SQL.

Objetivos

- Conocer los fundamentos del lenguaje SQL.
- Conocer los fundamentos del lenguaje Python.
- Aplicar Python en el conocimiento de los fundamentos y técnicas de Web Scraping.
- Aplicar Python en el conocimiento de los fundamentos y técnicas de escucha en Redes Sociales.
- Conocer los fundamentos de MongoDB como herramienta de gestión de base de datos orientada a documento.
- Conocer los fundamentos del Big Data (Machine & Deep Learning).
- Conocer los fundamentos del procesamiento distribuido.

Contenido

- Repaso de bases de datos, lenguaje SQL.
- Introducción al lenguaje Python.

* Acceso a bases de datos.
* Recopilación de datos en la Web (Web Scraping: Selenium, Beautiful Soup).
* Acceso a datos en redes sociales.
* Recolección mediante APIs.
- Introducción a MongoDB con Python.
- Esquema de programación Map Reduce.

- Introducción a Big Data (Machine Learning & Deep Learning).
- Introducción a los Sistemas Distribuidos.
- Interpretabilidad de algoritmos de caja negra.

Evaluación

La evaluación consistirá en la resolución de problemas propuestos por el profesor a lo largo del curso. Al menos tres de estos trabajos deberán ser presentados por los alumnos en clase. Este método sirve tanto para la
convocatoria ordinaria como para la extraordinaria.

Cualquier alumno/a tendrá derecho a una prueba final pudiendo resultar su calificación la nota final del curso.

Bibliografía

* Parker, James R. Python : An introduction to programming. Dulles (Virginia, EEUU) : Mercury Learning and Information, cop. 2017
* Russell, Matthew A. Mining the social web : [data mining Facebook, Twitter, LinkedIn, Google+, GitHub, and more] / Matthew A. Russell. Sebastopol (California) : O'Really Media, 2013
* Documentación Hadoop: http://hadoop.apache.org/docs/current/
* Documentación MrJob: https://pythonhosted.org/mrjob/
* Karau H., Konwinski A., Wendell P., and Zaharia M. Learning Spark. O'Reilly. 2015
* Documentación Spark: http://spark.apache.org/docs/latest/
* Python paso a paso. Angel Hinojosa Gutierrez
* Interpretabilidad Machine Learning: https://christophm.github.io/interpretable-ml-book/ - Christoph Molnar

Estructura

MódulosMaterias
No existen datos de módulos o materias para esta asignatura.

Grupos

Clases teóricas y/o prácticas
GrupoPeriodosHorariosAulaProfesor
Grupo A20/01/2025 - 16/05/2025JUEVES 18:00 - 19:30-GABRIEL MARIN DIAZ
Grupo B20/01/2025 - 16/05/2025LUNES 18:00 - 19:30-JOSE JAVIER GALAN HERNANDEZ


Actividades prácticas
GrupoPeriodosHorariosAulaProfesor
Grupo A20/01/2025 - 16/05/2025JUEVES 19:30 - 21:00-GABRIEL MARIN DIAZ
Grupo B20/01/2025 - 16/05/2025LUNES 19:30 - 21:00-JOSE JAVIER GALAN HERNANDEZ