
Presentación
En el marco del cálculo del costo de menstruar en Argentina, llevado a cabo desde la campaña #MenstruAcción y EcoFeminitas, en el presente documento de trabajo se encuentra la exploración, organización y limpieza de los datos obtenidos mediante el #MenstruScrapper, desarrollado por Nayla Portas de [LAS] de sistemas. El #MenstruScrapper fue ejecutado el día 17 de Septiembre de 2021 sobre la página Precios Claros, sumándose esta información a la obtenida anteriormente en Septiembre y Marzo de 2019, Marzo y Septiembre de 2020, y Marzo de 2021. En esta instancia, se obtuvieron 83.317 observaciones en total.
- Respecto de los tampones: Se obtuvieron 17.799 precios.
- Respecto de las toallitas: Se obtuvieron 65.518 precios.
En nuestro repositorio se encuentran aclaradas todas las fuentes adicionales a las que se recurrió para realizar el cálculo y los archivos correspondientes. En otro paso se encuentra el cálculo propiamente dicho del costo anual de menstruar.
Preparando el entorno de trabajo
Comenzamos levantando las librerías necesarias, cargando los datos srappeados desde el archivo .csv, y un diccionario que indica a qué región pertenece cada provincia del país.
library(EnvStats)
library(tidyverse)
library(ggridges)
library(openxlsx)
library(viridis)
library(readxl)
library(magrittr)
library(scales)
library(kableExtra)
datos <- read.csv("Fuentes/precios-gestion-menstrual-2021-09-17.csv",
header = TRUE, sep = ",", dec = ".",
fill = TRUE, encoding = "UTF-8")
regiones <- openxlsx::read.xlsx("Fuentes/provincias_regiones.xlsx")
Vista previa del dataset:
| | | | |
---|
1 | tampones | EQUATE | Tampon Higienico Mujer Equate Super 20 Un | |
2 | tampones | FARMACITY | Tampon Medio Farmacity Enjoy 8 Un | |
3 | tampones | FARMACITY | Tampon Medio Farmacity Enjoy 8 Un | |
4 | tampones | FARMACITY | Tampon Medio Farmacity Enjoy 8 Un | |
5 | tampones | FARMACITY | Tampon Medio Farmacity Enjoy 8 Un | |
6 | tampones | FARMACITY | Tampon Mini Farmacity Enjoy 8 Un | |
Vista previa del diccionario de regiones:
| | | | |
---|
1 | Buenos Aires | GBA | | |
2 | CABA | GBA | | |
3 | Mendoza | CUY | | |
4 | Córdoba | PAM | | |
5 | Río Negro | PAT | | |
6 | Neuquén | PAT | | |
Definimos una pequeña función: cant
nos va a devolver un número en formato character (texto), con cero dígitos, con un punto para separar los miles, y una coma para separar los decimales.
cant <- function(x){
format(x, digits = 0, big.mark = ".", decimal.mark = ",")}
Guardamos el valor de la fecha a la que corresponde el ejercicio.
date <- "Septiembre 2021"
Exploración de los datos
Al dataframe datos
le pegamos los valores de las regiones, usando como variable de identificación a la Provincia
. A continuación podemos borrar de nuestro entorno de trabajo el elemento regiones
.
datos <- left_join(datos, regiones, by = "Provincia")
rm(regiones)
datos
cuenta con 83.013 observaciones. A su vez, podemos ver con qué variables contamos en el dataset:
[1] "Categoría" "Marca" "Nombre" "Presentación" "Comercio" "Sucursal" "Dirección"
[8] "Localidad" "Provincia" "Precio.de.lista" "Region"
A continuación, exploraremos el comportamiento de las diferentes variables. Con count()
pedimos un conteo de observaciones para cada valor que toma la variable aclarada, con arrange()
ordenamos los datos de forma decreciente según el conteo anterior, y en mutate()
se definen nuevas variables para nuestro cuadro. Por ejemplo, el porcentaje es la cantidad de cada categoría sobre la suma de las mismas, expresada en formato de porcentaje.
Categorías
datos %>%
count(Categoría) %>%
arrange(-n) %>%
mutate(porcentaje = percent(n/sum(n)))
| | | | |
---|
toallitas | 65518 | 79% | | |
tampones | 17799 | 21% | | |
Cabe destacar que esta composición corresponde a la disponibilidad de precios, no refleja la estructura del consumo. O sea, no podemos decir que se consumen en un 80% toallitas y en 20% tampones. Lo que sí sabemos es que tenemos una muestra muy grande de precios para ambas categorías, aunque debemos tener en cuenta que la página de Precios Claros puede tener un sesgo por no incluir los comercios tradicionales sino únicamente grandes cadenas.
Marcas
datos %>%
count(Marca) %>%
arrange(-n) %>%
mutate(porcentaje = n/sum(n),
acumulado = cumsum(porcentaje),
porcentaje = percent(porcentaje),
acumulado = percent(acumulado))
| | | | |
---|
SIEMPRE LIBRE | 23249 | 27.9043% | 27.9043% | |
ALWAYS | 12032 | 14.4412% | 42.3455% | |
KOTEX | 7850 | 9.4218% | 51.7673% | |
O.B. | 7417 | 8.9021% | 60.6695% | |
BONTÉ | 7170 | 8.6057% | 69.2752% | |
LADYSOFT | 5625 | 6.7513% | 76.0265% | |
NOSOTRAS | 3743 | 4.4925% | 80.5190% | |
CARREFOUR | 3361 | 4.0340% | 84.5530% | |
FARMACITY | 2555 | 3.0666% | 87.6196% | |
LINA | 2548 | 3.0582% | 90.6778% | |
Contamos con 28 marcas de productos, aunque con 10 de ellas se completa el 90% del total de productos. Las primeras 3 marcas concentran casi la mitad de las observaciones. Nuevamente aquí hay que tener en cuenta que no se trata exactamente de una “concentración de mercado”.
Presentación
datos %>%
count(Presentación) %>%
arrange(-n) %>%
mutate(porcentaje = n/sum(n),
acumulado = cumsum(porcentaje),
porcentaje = percent(porcentaje),
acumulado = percent(acumulado))
| | | | |
---|
8.0 un | 45043 | 54.0622% | 54.0622% | |
16.0 un | 30897 | 37.0837% | 91.1459% | |
20.0 un | 2480 | 2.9766% | 94.1224% | |
10.0 un | 1308 | 1.5699% | 95.6924% | |
32.0 un | 1160 | 1.3923% | 97.0846% | |
24.0 un | 806 | 0.9674% | 98.0520% | |
14.0 un | 583 | 0.6997% | 98.7518% | |
30.0 un | 461 | 0.5533% | 99.3051% | |
15.0 un | 241 | 0.2893% | 99.5943% | |
7.0 un | 147 | 0.1764% | 99.7708% | |
Casi el 90% de los productos vienen en paquetes de 8 o 16 unidades. Luego seguiremos analizando esta variable en particular, porque nos interesa para calcular los precios unitarios de los productos, y hay valores (como “1.0 un”) que son raros y, en caso de tratarse de errores, podrían arrastrar problemas hacia el cálculo de esos precios.
Provincias
datos %>%
count(Provincia) %>%
arrange(-n) %>%
mutate(porcentaje = n/sum(n),
acumulado = cumsum(porcentaje),
porcentaje = percent(porcentaje),
acumulado = percent(acumulado))
| | | | |
---|
Buenos Aires | 27342 | 32.8168% | 32.82% | |
CABA | 27089 | 32.5132% | 65.33% | |
Córdoba | 4582 | 5.4995% | 70.83% | |
Río Negro | 3224 | 3.8696% | 74.70% | |
Neuquén | 2954 | 3.5455% | 78.24% | |
Entre Ríos | 2328 | 2.7941% | 81.04% | |
Chubut | 2233 | 2.6801% | 83.72% | |
Santa Cruz | 2009 | 2.4113% | 86.13% | |
Santa Fe | 1860 | 2.2324% | 88.36% | |
Salta | 1269 | 1.5231% | 89.89% | |
Si bien más de la mitad de las observaciones se concentran en Buenos Aires y CABA, es importante saber que se cuenta con información de todas las provincias del país, y que incluso en el peor de los casos (por ejemplo, 165 observaciones en Catamarca) se trata de una cantidad pasible de proveernos estimaciones útiles.
Regiones
datos %>%
count(Region) %>%
arrange(-n) %>%
mutate(porcentaje = n/sum(n),
acumulado = cumsum(porcentaje),
porcentaje = percent(porcentaje),
acumulado = percent(acumulado))
| | | | |
---|
GBA | 54431 | 65.3% | 65.3% | |
PAT | 11306 | 13.6% | 78.9% | |
PAM | 9796 | 11.8% | 90.7% | |
NOA | 3757 | 4.5% | 95.2% | |
NEA | 2554 | 3.1% | 98.2% | |
CUY | 1473 | 1.8% | 100.0% | |
En términos regionales seguimos viendo esa asimetría en la disponibilidad de datos, pero hay que tener en cuenta que efectivamente hay diferencias de escala de mercados en términos regionales.
Precio de lista
Ahora graficamos la distribución de los precios de lista (o sea, sin tener en cuenta las unidades por paquete) según cada categoría. Para ello utilizamos ggplot2
.
En la primer línea de código referida a ggplot
, tomamos como fuente el dataset que venimos utilizando (a eso refiere el punto), en el eje x
queremos los precios, en el eje y
queremos cada categoría, y el relleno de cada parte del gráfico también según las categorías de productos. En la segunda línea aclaramos que queremos un gráfico de densidad (que es como un histograma pero en versión continua), la escala hace a la superposición de los graficos y el bandwidth
o “ancho de banda” indica la extensión del intervalo de valores con los que se va a realizar la estimación del gráfico (o sea, si el gráfico va a ser más detallista y por ende más “ruidoso”, o más suave y “redondeado”). Se puede jugar con ambos valores para ver sus efectos. En la tercer línea aclaramos que queremos un tema minimalista, en la cuarta que la paleta de colores la vamos a asigna de manera manual, en la quinta que no queremos una leyenda aclarando los colores de cada categoría porque ya están aclaradas en el eje y. Y por último aclaramos las etiquetas necesarias.
datos %>%
ggplot(., aes(x = Precio.de.lista, y = Categoría, fill = Categoría)) +
geom_density_ridges(scale = 3, bandwidth = 20) +
theme_minimal() +
scale_fill_manual(values = c("red", "violetred")) +
theme(legend.position = "none") +
labs(title = "Precio de lista de productos de gestión menstrual según categoría",
subtitle = date,
x = "Precio de lista",
y = "",
caption = "Fuente: #MenstruAcción")

Por esta vez, filtramos de los datos los precios mayores a 1.000 pesos, basicamente porque hay casos (outliers que de hecho vamos a tener que corregir) que superan ese monto y “rompen” la escala del gráfico. Para una comprensión más acabada de este efecto, veamos qué sucede si quitamos estos valores que hasta superan los 15.000 pesos:
datos <- datos %>%
filter(Precio.de.lista < 1000)
datos %>%
ggplot(., aes(x = Precio.de.lista, y = Categoría, fill = Categoría)) +
geom_density_ridges(scale = 3, bandwidth = 20) +
theme_minimal() +
scale_fill_manual(values = c("red", "violetred")) +
theme(legend.position = "none") +
labs(title = "Precio de lista de productos de gestión menstrual según categoría",
subtitle = date,
x = "Precio de lista",
y = "",
caption = "Fuente: #MenstruAcción")

A primera vista, los niveles de precios de toallitas y tampones se distribuyen en una misma escala. En el caso de los tampones hay una distribución bimodal, que puede deberse a la amplia cantidad de presentaciones de 8 y 16 unidades.
También podemos graficar los precios de cada categoría por regiones:
datos %>%
ggplot(., aes(x = Precio.de.lista, y = Region, fill = Categoría, alpha = Region)) +
geom_density_ridges(scale = 2, bandwidth = 20) +
theme_minimal() +
scale_fill_manual(values = c("red", "violetred"))+
facet_wrap(. ~ Categoría) +
theme(legend.position = "none") +
labs(title = "Precio de lista de productos de gestión menstrual según categoría y región",
subtitle = date,
x = "Precio de lista",
y = "",
caption = "Fuente: #MenstruAcción")

En este caso se encuentran diferencias más que nada entre los tampones, no así en el caso de las toallitas. Dado el peso de GBA entre las observaciones, tiene sentido que la distribución general se asemeje a la de dicha región.
Limpieza de la cantidad de unidades (Presentación)
Como mencionábamos anteriormente, es necesario prestarle particular atención a la variable de Presentación
, que indica la cantidad de unidades por cada paquete. En primer lugar, teniendo en cuenta que está expresada como “X un.”, modificamos la variable para quedarnos únicamente con las unidades en formato numérico. Esto lo hacemos convirtiendo la variable al tipo character, y luego quedándonos con aquellos caracteres entre la primer posición y aquella que se encuentra 4 posiciones por detrás de la última (omitiendo así “.0 un”). En la tabla presentacion_nros
resumimos el comportamiento de esta nueva variable unidades
.
datos <- datos %>%
mutate(Presentación = as.character(Presentación),
unidades = as.numeric(substr(Presentación, 1, nchar(Presentación)-4)))
presentacion_nros <- datos %>%
count(unidades) %>%
arrange(-n) %>%
mutate(porcentaje = n/sum(n),
acumulado = cumsum(porcentaje),
porcentaje = percent(porcentaje),
acumulado = percent(acumulado))
presentacion_nros
| | | | |
---|
8 | 45041 | 54.1118% | 54.1118% | |
16 | 30851 | 37.0640% | 91.1758% | |
20 | 2480 | 2.9794% | 94.1552% | |
10 | 1308 | 1.5714% | 95.7267% | |
32 | 1160 | 1.3936% | 97.1203% | |
24 | 806 | 0.9683% | 98.0886% | |
14 | 583 | 0.7004% | 98.7890% | |
30 | 429 | 0.5154% | 99.3044% | |
15 | 241 | 0.2895% | 99.5939% | |
7 | 147 | 0.1766% | 99.7705% | |
Sin embargo, en la base puede verse que hay casos que, de acuerdo a la descripción en Nombre
, tienen mal la cantidad de unidades en Presentacion
(y por ende en unidades), afectando el calculo de precios unitarios.
Utilizando expresiones regulares podemos quedarnos con los dígitos, sean uno o más, que están seguidos de “Un” o “un” en la variable Nombre
. Nos quedamos con esta información en la variable unidades_regex
y resumimos su comportamiento.
datos <- datos %>%
mutate(unidades_regex = as.numeric(str_extract(Nombre, '\\d+(?=\\s*[Uu]n?)')))
presentacion_regex <- datos %>%
count(unidades_regex) %>%
arrange(-n) %>%
mutate(porcentaje = n/sum(n),
acumulado = cumsum(porcentaje),
porcentaje = percent(porcentaje),
acumulado = percent(acumulado))
presentacion_regex
| | | | |
---|
8 | 45169 | 54.2655% | 54.2655% | |
16 | 30862 | 37.0773% | 91.3428% | |
20 | 2480 | 2.9794% | 94.3222% | |
10 | 1308 | 1.5714% | 95.8937% | |
32 | 1160 | 1.3936% | 97.2873% | |
24 | 806 | 0.9683% | 98.2556% | |
14 | 583 | 0.7004% | 98.9560% | |
30 | 459 | 0.5514% | 99.5074% | |
15 | 241 | 0.2895% | 99.7970% | |
7 | 147 | 0.1766% | 99.9736% | |
Nótese que hay pequeñas diferencias respecto del cuadro anterior (en las 30 unidades por ejemplo). En este caso, las unidades se encuentran más concentradas en valores populares. Podemos identificar cuándo ambas informaciones (la contenida en unidades
y en unidades_regex
) coinciden y cuándo no. Creamos la variable igual
que toma valor TRUE cuando son iguales, y FALSE cuando no. A continuación, en la tabla comparo_unidades
se realiza un conteo de observaciones para ambas variables, se identifican las situaciones de coincidencia y diferencia y se ordenan los datos para ver primero las diferencias, según la magnitud.
datos <- datos %>%
mutate(igual = case_when(unidades == unidades_regex ~ T,
unidades != unidades_regex ~ F))
comparo_unidades <- datos %>%
count(unidades, unidades_regex) %>%
mutate(igual = case_when(unidades == unidades_regex ~ T,
unidades != unidades_regex ~ F)) %>%
arrange(igual, -n)
comparo_unidades
| | | | |
---|
1 | 8 | 77 | FALSE | |
16 | 8 | 49 | FALSE | |
27 | 16 | 40 | FALSE | |
1 | 30 | 30 | FALSE | |
1 | 16 | 20 | FALSE | |
50 | 8 | 2 | FALSE | |
8 | 8 | 45041 | TRUE | |
16 | 16 | 30802 | TRUE | |
20 | 20 | 2480 | TRUE | |
10 | 10 | 1308 | TRUE | |
En particular, hay casos que fueron informados como de 1 o 16 unidades y en realidad eran de 8 (tiene sentido que este último sea el verdadero valor), casos que fueron informados como de 1 o 27 unidades y en realidad eran de 16, o casos que fueron informados como de 1 unidad y en realidad eran de 30, etc. Como puede verse a continuación, hay en total 218 casos en que la información no coincide, lo que representa el 0.26% de la información (mejoró muchísimo en comparación a relevamientos anteriores), y sólo 6 casos en que no había información sobre la cantidad de unidades en la descripción del artículo.
datos %>%
group_by(igual) %>%
summarise(n = n()) %>%
mutate(porc = percent(n/sum(n)))
| | | | |
---|
FALSE | 218 | 0.26% | | |
TRUE | 83013 | 99.73% | | |
NA | 6 | 0.01% | | |
Vale la pena destacar que estos errores corresponden a todas las regiones, mayormente concentrados en GBA, y en 5 marcas diferentes.
datos %>%
filter(igual == FALSE) %>%
count(Region)
| | | | |
---|
CUY | 2 | | | |
GBA | 100 | | | |
NEA | 7 | | | |
NOA | 35 | | | |
PAM | 44 | | | |
PAT | 30 | | | |
datos %>%
filter(igual == FALSE) %>%
count(Marca)
| | | | |
---|
CALIPSO | 2 | | | |
KOTEX | 52 | | | |
LADYSOFT | 109 | | | |
NOSOTRAS | 30 | | | |
SIEMPRE LIBRE | 25 | | | |
Aclaración
En un ejercicio anterior (septiembre 2019), prescindimos de los valores faltantes en unidades_regex
(por más que tengan valor en unidades
, aquella que surge de la variable Presentación
). Verificamos aquellos casos en que unidades_regex
(que surge del texto en Nombre
) no coincide con la variable unidades
, y establecimos que las cantidades referidas a las unidades por paquete parecen ser mejor captadas con el método de regex sobre el texto del Nombre
del producto, respecto de lo surgido de la información de la página como Presentación
. Nos quedamos con unidades_regex
para calcular el precio por unidad de los productos.
Esta vez, dado que el porcentaje de aquellos casos en que no coinciden unidades
y unidades_regex
, junto a los casos en que unidades_regex
figura como NA
, alcanzan solamente un 0.27%, se prescindirá de ellos.
datos <- datos %>%
filter(igual == TRUE)
Se descartan 224 casos y ahora contamos con 83.013 observaciones. También podemos deshacernos de variables que no vamos a utilizar en el ejercicio de estimación.
datos <- datos %>%
select(-Presentación, -unidades_regex, -igual)
Cálculo del precio por unidad
Creo la variable precio_unidad
, dividiendo el Precio.de.lista
por las unidades
.
datos <- datos %>%
mutate(precio_unidad = round(Precio.de.lista/unidades, 2))
Gráficos del precio por unidad
Ahora podemos observar la distribución de esta nueva variable con los mismos gráficos que utilizamos antes.
ggplot(datos, aes(x = precio_unidad, y = Categoría, fill = Categoría)) +
geom_density_ridges(scale = 2, bandwidth = 1.25) +
theme_minimal() +
scale_x_continuous(limits = c(0, 30)) +
scale_fill_manual(values = c("red", "violetred")) +
theme(legend.position = "none") +
labs(title = "Precio por unidad de productos de gestión menstrual según categoría",
subtitle = date,
x = "Precio por unidad",
y = "",
caption = "Fuente: #MenstruAcción")

Esta vez, para realizar el gráfico por categorías y regiones, podemos ordenar a estas últimas según su precio promedio en el gráfico. Para ello construimos un vector que las aloje en orden, llamado reg_ordenadas
. Luego, pisamos la variable Region
en los datos para que sea de tipo factor, y el orden de la misma esté determinado según el vector previamente definido.
reg_ordenadas <- datos %>%
group_by(Region) %>%
summarise(promedio = mean(precio_unidad)) %>%
arrange(promedio) %$% Region
datos <- datos %>%
mutate(Region = factor(Region, levels = reg_ordenadas))
ggplot(datos, aes(x = precio_unidad, y = Region, fill = Categoría, alpha = Region)) +
geom_density_ridges(scale = 2, bandwidth = 1.25) +
theme_minimal() +
scale_fill_manual(values = c("red", "violetred"))+
facet_wrap(. ~ Categoría) +
theme(legend.position = "none") +
scale_x_continuous(limits = c(0, 30)) +
labs(title = "Precio por unidad de productos de gestión menstrual según categoría y región",
subtitle = date,
x = "Precio por unidad",
y = "",
caption = "Fuente: #MenstruAcción")

2,5 % de los extremos de la distribución
Adicionalmente, como el cálculo lo realizaremos agregando los precios de acuerdo a una media alpha podada con alpha = 2,5% (o sea, ignorando los valores superiores e inferiores para evitar la intrusión de outliers a pesar de la limpieza), presentamos gráficos que justamente muestran las “colas” de la distribución que se estarían obviando.
ggplot(datos, aes(x = precio_unidad, y = Categoría, fill = factor(..quantile..))) +
stat_density_ridges(geom = "density_ridges_gradient",
calc_ecdf = TRUE, quantiles = c(0.025, 0.975),
bandwidth = 1.25, scale = 1.5) +
scale_fill_manual(name = "Probabilidad",
values = c("violetred1", "red2", "violetred1"),
labels = c("2,5 %", "95,0 %", "2,5 %")) +
scale_x_continuous(limits = c(0, 30)) +
theme_minimal() +
theme(legend.position = "bottom") +
labs(title = "Precio por unidad de productos de gestión menstrual según categoría",
subtitle = paste(date),
x = "Precio por unidad",
y = "",
caption = "Fuente: #MenstruAcción")

Realizamos el mismo gráfico por cada provincia, ya que esa será la primer unidad de agregación para el cálculo total a nivel nacional.
prov_ordenadas <- datos %>%
group_by(Provincia) %>%
summarise(promedio = mean(precio_unidad)) %>%
arrange(promedio) %$%
Provincia
datos <- datos %>%
mutate(Provincia = factor(Provincia, levels = prov_ordenadas))
ggplot(datos, aes(x = precio_unidad, y = Provincia,
fill = factor(..quantile..))) +
stat_density_ridges(geom = "density_ridges_gradient",
calc_ecdf = TRUE, quantiles = c(0.025, 0.975),
bandwidth = 1.25, scale = 2) +
scale_fill_manual(name = "Probabilidad",
values = c("violetred1", "red2", "violetred1"),
labels = c("2,5 %", "95,0 %", "2,5 %")) +
scale_x_continuous(limits = c(0, 30)) +
facet_wrap(. ~ Categoría) +
theme_minimal() +
theme(legend.position = "bottom") +
labs(title = "Precio por unidad de productos de gestión menstrual según categoría y provincia",
subtitle = paste(date, ". "),
x = "Precio por unidad",
y = "",
caption = "Fuente: #MenstruAcción")

Apéndice: Precios iguales a cero
En esta ocasión, no hay precios iguales a cero, con lo que se prescinde de dicho análisis.
Finalmente, guardamos esta nueva versión del dataset en formato .RDS para continuar en el siguiente script con el cálculo de cuánto cuesta menstruar.
