3 Preparativos

3.1 Usos y beneficios de R

R no es Microsoft Excel. R no es una hoja de cálculo. Uno no usaría R para llevar las finanzas de la vida. El uso primario de R consiste en realizar trabajo estadístico, que incluye -pero no se limita a- limpiar, transformar, modelar, visualizar y comunicar datos.

R es ideal para las personas que trabajamos con datos. No es que no sea cumplidor para otro tipo de emprendimientos -e.g., crear sitios web, shiny apps, o un ebook como este-, pero si alguien anda en busca de un lenguaje de programación con fines más variados seguramente aprender Python le convenga más.

Hay múltiples razones para afirmar que el esfuerzo de aprender a programar en R vale la pena. La primera es casi suficiente: R es el único lenguaje de programación especializado en análisis estadístico, lo que lo convierte en la lengua franca entre las personas que practican Data Science (Python no podría decir lo mismo, aunque ciertamente es su mejor competidor hoy por hoy).

Su flexibilidad es otro argumento a favor. Que R se base en la escritura de código es un reto pesado al principio, pero esa característica es a la larga su mejor servicio. Quienes han utilizado SPSS saben que el programa es un encanto: sólo hay que interactuar con la interfaz, tocar botones, abrir ventanas, en fin, un canto a la paz, un programa hermano que no le complica la existencia a nadie. Con tal de ser user-friendly, SPSS paga el altísimo costo de volverse súper tieso. Al contrario, cuando programamos en R disponemos de muchas formas distintas de escribir código para alcanzar un mismo resultado, y aunque esos posibles códigos no son todos deseables o efectivos en la misma medida, la gran flexibilidad de este lenguaje es un favor para quienes lo usamos a diario.

R cuenta con una comunidad de personas usuarias muy extendida y, en general, bastante accesible; esto marca una significativa diferencia con respecto a Python, cuyo ecosistema está dominado por profesionales en informática más o menos territoriales. Al igual que Python, R (y su interfaz, RStudio, de la que hablaremos luego) tiene la sólida ventaja de que su descarga e instalación son gratuitas, y el desarrollo de extensiones (paquetes) es permanente.

R es un lenguaje al servicio de las personas.

Un atributo primordial de R es que facilita la reproducibilidad y la transparencia. El código mediante el cual uno carga, limpia, transforma, modela, visualiza o comunica un conjunto de datos puede ser consignado en un archivo de texto (un R script) que permite evidenciar el trabajo efectuado y reproducirlo si es requerido. Si esto no les parece tremendo, pónganse a pensar en cómo recrearían paso a paso la manipulación de la que haya sido objeto un conjunto de datos trabajado en Microsoft Excel… ¿Es posible acaso?

Hay en América Latina cierto culto por Microsoft Excel y está muy extendida la mentira de que ese programa es un buen candidato para realizar trabajo estadístico. Spoiler: no lo es. Sin embargo, quienes usamos R no siempre podemos prescindir del uso de Microsoft Excel: los conjuntos de datos frequentemente están almacenados en archivos CSV o XLSX que deben trabajarse primero en Microsoft Excel con el propósito de remover títulos, notas, imágenes, banners, celdas combinadas y cualquier otra maleza, de modo tal que el archivo que finalmente carguemos en R sea de conformación rectangular. De ese punto en adelante, toda acción llevada a cabo propiamente sobre los datos ha de ambientarse en R para que conste en el script respectivo y sea reproducible.

3.2 Instalación

Llegó la hora de instalar R. Hay que instalar también RStudio. Ambos, R y RStudio, son necesarios pues RStudio es el entorno de desarrollo integrado (IDE) de R. ¿Ah? Quise decir que, en la práctica, uno trabaja realmente en RStudio, no en R, pero RStudio funciona sólo si R está instalado en la computadora.

Pasos para instalar R y RStudio:

  1. Seguir a cabalidad el siguiente tutorial:
  • Instrucciones para descargar e instalar R y RStudio.
    • ¡Los links del tutorial no sirven! Este link sí sirve.

Si usted ya los tenía instalados, más vale que los actualice pues la sintaxis de R ha incorporado novedades que son imprescindibles para poder utilizar el código de los próximos capítulos.

3.3 Housekeeping

Es importantísimo tener la computadora organizada de forma tal que facilite trabajar con R (siempre voy a referirme genéricamente a R, pero ya expliqué que, en la práctica, uno trabaja en RStudio).


Créame: Usted quiere seguir estos pasos así como se los estoy dictando. Uno de los primeros suplicios que cualquier persona novata experimenta es el de lograr que R cargue archivos. La estructura que vamos a crear a continuación hará que usted no pierda tiempo en eso.

Pasos para crear la estructura de carpetas y archivos:

  1. Crear en su computadora una carpeta que se llame pre_intro_r (no se puede llamar de ningún otro modo).

  2. Descargar los cuatro elementos que encontrará en este link:

  • input es una carpeta vacía.
  • output es una carpeta vacía.
  • pre-intro-r.Rproj es un R project.
  • pre-intro-r.Rmd es un R Markdown file.
  1. Guardar esos cuatro elementos en la carpeta pre_intro_r creada en el primer paso (los cuatro deben quedar juntos en la carpeta llamada pre_intro_r).

  2. Abrir el R project llamado pre_intro_r.Rproj, el cual está alojado en la carpeta pre_intro_r, y esperar que RStudio se ejecute.

RStudio debería estar abierto en este momento.

  1. Verificar que en la esquina superior derecha esté indicado el nombre del R project, es decir, pre_intro_r, justo donde lo señalan las flechas amarillas en esta imagen:
Regiones de RStudio

Las cuatro regiones de RStudio (en fucsia)


Puede ser que su vista de rstudio no tenga en este momento cuatro regiones sino tres, pero a partir del próximo paso (cuando abramos el archivo r markdown) sí debería poder distinguir las cuatro regiones. De momento, enfóquese en verificar que el r project esté abierto (las flechas amarillas señalan dónde debe fijarse).

La próxima vez que queramos trabajar en los materiales de R pre-introductorio, en lugar de ingresar por el ícono de RStudio, vamos a ingresar directo por pre_intro_r.Rproj. Por razones que resultarán obvias más adelante, es absolutamente clave seguir estas instrucciones tal cual las expliqué, y particularmente importante es que la esquina superior derecha se lea pre_intro_r:

RStudio indica en qué projecto está trabajando

  1. Abrir el R Markdown file: pre-intro-r.Rmd

Dado que RStudio está abierto, quiero que este paso lo realicen desde el navegador de R (la pestaña Files ubicada, digamos, en el cuadrante inferior derecho). Disponer de las carpetas ahí, cerquita y accesibles, es una consecuencia directa de haber diseñado una estructura de archivos y carpetas idónea y, sobre todo, de estar trabajando en el marco de un R project. Por algo he insistido tanto en verificar que estamos trabajando en pre_intro_r.Rproj (o sea, el R project, no el R Markdown: pre_intro_r.Rmd), verificación que no cuesta nada porque podemos hacerla hasta con la mirada.

3.4 Cómo ejecutar código

Del paso anterior debió abrirse un R Markdown file. Como podrán ver, este es un archivo de texto con bloques de código incrustrados. Dentro de los bloques (chunks) se escribe el código y afuera de los bloques se realizan anotaciones. Este tipo de archivo es ideal para practicar código y tomar apuntes al mismo tiempo.

Más adelante vamos a explicar qué es cada una de las cuatro áreas de RStudio. De momento, vamos a concentrarnos en cómo ejecutar código.

Lo primero es saber las teclas que ejecutan el código:

  • Mac: Cmd+Return

  • Windows: Ctrl+Enter

Hay una opción profesional y varias alternativas no tan profesionales de ejecutar código.

Para ejecutar código semi-profesionalmente, seleccionamos la línea específica (o el bloque entero) y presionamos los shortcuts Cmd+Return (Mac) o Ctrl+Enter (Windows), o bien podríamos sólo colocar el cursor en la línea y presionar los mismos shortcuts.

Cómo correr código, opción 1

Asimismo, observen que cada bloque de código posee un botón de play en la esquina superior derecha. Dar click en ese botón corre todo el código que esté en el bloque:

Cómo correr código, opción 2

Estas opciones sirven pero ninguna es aconsejable. Para entender cómo se ejecuta código profesionalmente, primero deben notar que cualquier línea de código que uno abra con # se convierte en un comentario y, por lo tanto, R asume que la línea en cuestión no es código para ejecutar. Esto nos concede la oportunidad de comentar nuestro script con una descripción de lo que estamos por hacer en la línea siguiente: ## Filter rows y abajo va el código que filtra las filas, ## Rename columns y abajo va el código que cambia el nombre de las columnas, etcétera.

Para ejecutar código profesionalmente, en lugar de seleccionar líneas o bloques como lo indiqué arriba, uno debe posicionar la barra (el cursor) justo antes del comentario -e.g., ## Compute- y, ahora sí, ejecutar el código presionando los shortcuts Cmd+Return (Mac) o Ctrl+Enter (Windows).

Cómo correr código, opción 3

Esta es la mejor práctica ya que sincroniza mentalmente la ejecución del código con la lectura de su anotación (que debería empezar siempre con un verbo, para que sea más claro que se trata de un comando, de una instrucción que le pasamos a la computadora); gracias a este mecanismo uno adquiere pleno control de qué está haciendo y por qué, en lugar de sólo correr código como un autómata.

Como explicaré en otro capítulo, anotar nuestro código es esencial para que otras personas lo entiendan -o uno mismo, porque el tiempo pasa y nos olvidamos de qué hicimos y en razón de qué-.

Siempre miremos con atención cuáles cambios provoca el código. El efecto de los comandos puede observarse ya sea como respuestas en la consola, que está justo en la zona baja de RStudio, o como objetos que aparecen en la región superior derecha (environment).