class: left title-slide background-image: url('markus-spiske-FXFz-sW0uwo-unsplash.jpg') background-size: cover background-position: left [remarkjs]: https://github.com/gnab/remark [remark-wiki]: https://github.com/gnab/remark/wiki [xaringan]: https://slides.yihui.org/xaringan/ [xaringan-wiki]: https://github.com/yihui/xaringan/wiki [xaringanthemer]: https://pkg.garrickadenbuie.com/xaringanthemer [xaringanExtra]: https://pkg.garrickadenbuie.com/xaringanExtra [metathis]: https://pkg.garrickadenbuie.com/metathis [ricantillan]: https://twitter.com/ricantillan [rbind]: https://ricantillan.rbind.io [rsthemes]: https://www.garrickdenbuie.com/projects/rsthemes [regexplain]: https://www.garrickdenbuie.com/projects/regexplain [shrtcts]: https://pkg.garricakdenbuie.com/shrtcts # Investigación Social <br> en la era digital .side-text[ [@ricantillan][ricantillan] | [rcantillan.rbind.io][rbind] ] .title-where[ Universidad Católica del Maule<br> Agosto 01, 2023 ] <style type="text/css"> @keyframes title-text{ 0% { opacity: 0; text-shadow: -20px 30px 5px rgba(0,0,0,0.25); transform: translate(15px, -15px); } 10% { opacity: 0; text-shadow: -20px 30px 5px rgba(0,0,0,0.25); transform: translate(15px, -15px); } 80% { opacity: 1; text-shadow: -5px 5px 10px rgba(0,0,0,0.25); transform: translate(0, 0); } 100% { opacity: 1; text-shadow: -5px 5px 10px rgba(0,0,0,0.25); transform: translate(0, 0); } } @keyframes enter-right { 0% { opacity: 0; transform: rotate(90deg) translateY(-50px) } 20% { opacity: 0; transform: rotate(90deg) translateY(-50px) } 80% { opacity: 1; transform: rotate(90deg) translateY(0) } 100% { opacity: 1; transform: rotate(90deg) translateY(0) } } @keyframes enter-left { 0% { opacity: 0; transform: translateY(100px) } 20% { opacity: 0; transform: translateY(100px) } 60% { opacity: 1; transform: translateX(0) } 100% { opacity: 1; transform: translateX(0) } } .remark-visible .title-slide h1, .remark-visible .title-slide .side-text, .remark-visible .title-slide .title-where { animation-duration: 13s; } .title-slide h1 { font-size: 80px; font-family: Jost, sans; animation-name: title-text; animation-direction: alternate; animation-iteration-count: infinite; } .side-text { color: white; transform: rotate(90deg); position: absolute; font-size: 22px; top: 150px; right: -130px; transition: opacity 0.5s ease-in-out; animation-name: enter-right; animation-direction: alternate; animation-iteration-count: infinite; } .side-text:hover { opacity: 1; } .side-text a { color: white; } .title-where { font-family: Jost, sans; font-size: 25px; position: absolute; bottom: 10px; animation-name: enter-left; animation-direction: alternate; animation-iteration-count: infinite; animation-timing-function: ease-in-out; } </style> --- layout: false # Sobre mi... .f3[ 👋 Hola, Soy **Roberto Cantillan** ] -- .f3[ 🐦 [@ricantillan](https://twitter.com/ricantillan) ] -- .f3[ 🧑‍💻 [rcantillan.rbind.io](https://rcantillan.rbind.io) ] -- .f3[ 💼 [Sociología, Pontificia Universidad Católica de Chile](https://rstudio.com) ] --- class: middle # **Temas** - Big data, límites y oportunidades -- - Ciencias Sociales Computacionales -- - Nuevas estrategias de investigación -- - Ciencias sociales y perspectiva analítica -- --- class: middle right background-image: url('dan-cristian-padure-faAKGPMOqWA-unsplash.jpg') background-size: cover # **Ciencias Sociales computacionales** --- class: middle left ## Datos y era digital - Poder transformador de la era digital: **Enorme cantidad de datos (cada vez mayor) que se almacenan digitalmente, junto con el crecimiento paralelo en el poder de cómputo**. -- - A menudo los datos provienen de **rastros digitales**, resultantes de las acciones cotidianas de las personas. -- - Los investigadores ahora pueden observar el comportamiento, hacer preguntas, realizar experimentos y colaborar de formas que no eran posibles en el pasado. -- - Los investigadores sociales deben combinar los enfoques tradicionales con las capacidades de la era digital. -- - Comunmente, el "big data" incluye datos de empresas y gobiernos. --- class: middle left ## Datos y era digital II - Sin embargo, esto plantea **preocupaciones éticas**, ya que los investigadores ahora pueden **observar y potencialmente dañar a las personas** sin su consentimiento o conocimiento. -- - Tres estrategias principales de investigación para datos observacionales: **contar cosas, pronosticar cosas y aproximar un experimento**. -- - Los investigadores pueden usar datos 1) **listos para usar**, 2) **reutilizando datos** existentes creados por empresas y gobiernos, o 3) **datos personalizados**, generando datos específicamente para sus necesidades de investigación. --- class: middle left # **¿ Que son las Ciencias Sociales Computacionales?** --- class: middle center <img src="Data_Science_VD.png" width="45%" /> .footnote[ [1] http://drewconway.com/zia/2013/3/26/the-data-science-venn-diagram ] --- class: middle center <img src="screen6.png" width="50%" /> .footnote[ [1] Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press. https://www.bitbybitbook.com/ ] --- class: middle left ## Ciencias Sociales Computacionales - Mezclan ciencias computacionales y ciencias sociales. -- - A menudo, involucran cuestiones de éticas y de provacidad consideradas complejas -- - Combinan **Readymanes and Custommades** -- - Involucran 5 comnuidades claves: **Ciencias sociales**, **ciencias de datos**, **negocios**, **defensores de la privacidad**, **responsables políticos**. --- class: middle center <img src="screen12.png" width="50%" /> .footnote[ Edelmann, A., Wolff, T., Montagne, D., & Bail, C. A. (2020). Computational Social Science and Sociology. Annual Review of Sociology, 46(1), 61–81. https://doi.org/10.1146/annurev-soc-121919-054621 ] --- class: middle center .w-50.fl[ ### <img src="screen13.png" width="100%" /> ] .w-50.fr[ ### <img src="screen14.png" width="100%" /> .footnote[ Edelmann, A., Wolff, T., Montagne, D., & Bail, C. A. (2020). Computational Social Science and Sociology. Annual Review of Sociology, 46(1), 61–81. https://doi.org/10.1146/annurev-soc-121919-054621 ] ] --- class: middle right background-image: url('dan-cristian-padure-faAKGPMOqWA-unsplash.jpg') background-size: cover # **Ejemplos** --- class: middle right .w-40.fl[ ### <img src="screen1.png" width="100%" /> ] .w-40.fr[ ### <img src="screen3.png" width="100%" /> ] --- class: middle right .w-40.fl[ ### <img src="screen2.png" width="100%" /> ] .w-40.fr[ ### <img src="screen4.png" width="100%" /> ] --- <img src="screen5.png" width="100%" /> .footnote[ [1] https://github.com/sna-ses [2] https://sna-ssla.netlify.app/ ] --- class: middle right background-image: url('dan-cristian-padure-faAKGPMOqWA-unsplash.jpg') background-size: cover # **Big data** ## **Características fundamentales** --- class: middle left # **I. Grandes** - Las fuentes de big data no son el objetivo final en sí mismas; se utilizan para lograr objetivos de investigación específicos. > *Estudio de eventos raros*: grandes conjuntos de datos permiten a los investigadores estudiar eventos raros (sucesos que son poco frecuentes en la población). -- > *Estudio de la heterogeneidad*: Big data permite la exploración de la heterogeneidad, donde los patrones y las relaciones difieren entre varios grupos o contextos. -- > *Detección de pequeñas diferencias*: los grandes conjuntos de datos son efectivos para detectar pequeñas diferencias, que pueden ser valiosas para ciertas aplicaciones, como en la industria con fines de marketing. --- class: middle center # **II. Always on** <img src="screen7.png" width="60%" /> --- class: middle center <img src="screen8.png" width="60%" /> --- class: middle left # **III. No reactividad** .w-40.fl[ ### - Las fuentes de big data pueden ser no reactivas - Las personas no saben que sus datos se están registrando, lo que hace que sea menos probable que influya en su comportamiento - ¿Posibles sesgos? - *Desirability bias* - *Algorithmic confounding* ] .w-40.fr[ ### <img src="gif1.gif" width="100%" /> ] --- class: middle left # **IV. Información faltante** - los macrodatos pueden carecer de información crucial para la investigación social: > datos demográficos -- > comportamiento en otras plataformas -- > datos para operacionalizar construcciones teóricas. --- class: middle center <img src="screen9.png" width="80%" /> .footnote[ [1] Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press. ] --- class: middle left # **V. Inaccesibles** - Los datos en poder de empresas y gobiernos son difíciles de acceder para los investigadores -- - Existen serias barreras legales, comerciales y éticas que impiden el acceso a los datos. Estas barreras no desaparecerán a medida que la tecnología mejore, porque no son barreras técnicas -- - Algunos gobiernos nacionales han establecido procedimientos para habilitar el acceso a datos para algunos conjuntos de datos, pero el proceso es especialmente ad-hoc a nivel estatal y local -- - Los investigadores pueden asociarse con empresas para obtener acceso a los datos, pero esto puede crear una variedad de problemas para los investigadores y las empresas (ej. problemas de reproducibilidad). --- class: middle left # **VI. No representatividad** - Los macro datos pueden ser **no representativos** y, en efecto, pueden no ser adecuados para generalizar a toda la población (quien usa twitter?). -- - Para preguntas que requieren generalizar los resultados de la muestra a la población de la que se extrajo, este es un problema serio. -- - Pero para preguntas sobre comparaciones dentro de la muestra, los datos no representativos pueden ser poderosos (Estudio de John Snow 1853–54 brote de colera en Londres). -- - Para esto los investigadores gan claras las características de su muestra y respalden las afirmaciones sobre la transportabilidad con evidencia teórica o empírica. --- class: middle left # **VII. Cambios (Deriva)** - Los grandes sistemas de datos pueden cambiar con el tiempo -- - Esto puede afectar la consistencia y confiabilidad de los datos recopilados. -- - deriva de la población (cambio en quién los usa) - deriva de comportamiento (cambio en la forma en que las personas los usan) - deriva del sistema (cambio en el sistema mismo) --- class: middle left ## **VIII. Algorithmically confounded** .w-50.fl[ ### - El comportamiento en los sistemas de macro datos no es natural - Esta guiado por el diseño y la ingenieria de los sistemas - Sesgos de comportamiento que guian el diseño (Homofilia, clausura triádica, etc. <sup>1</sup>) ] .w-40.fr[ ### <img src="netmovie.gif" width="80%" /> ] .footnote[ [1] https://github.com/statnet ] --- # **IX. Sucios** .w-40.fl[ ### <img src="tidyr.png" width="100%" /> ] .w-50.fr[ ### - Las fuentes de big data se pueden cargar con basura y spam - Muchas de estas fuentes de macrodatos nunca fueron pensadas para ser utilizadas para la investigación - No se recopilan, almacenan ni documentan de una manera que facilite la limpieza de datos <sup>1</sup>) ] .footnote[ [1] Wickham H, Vaughan D, Girlich M (2023). tidyr: Tidy Messy Data. https://tidyr.tidyverse.org ] --- # **X. Sensibles** .w-50.fl[ ### - Muchos de los datos que poseen las compañias y los gobiernos son muy sensibles. - Ejemplo del premio Netflix <sup>1</sup>. ] .w-40.fr[ ### <img src="screen10.png" width="100%" /> ] .footnote[ [1] https://www.cs.cornell.edu/~shmat/shmat_oak08netflix.pdf ] --- class: middle right background-image: url('dan-cristian-padure-faAKGPMOqWA-unsplash.jpg') background-size: cover # **Tres estrategias para aprender con big data** ### **Contar cosas, predecir cosas, y aproximar experimentos** --- class: middle left # **Contar cosas** .w-50.fl[ ### - Contar cosas interesantes y relevantes - No se debe contar datos al azar - Se deben identificar preguntas interesantes y relevantes - impacto medible y proporcionar información generalizada más allá de los datos en sí. ] .w-40.fr[ ### <img src="counting.gif" width="100%" /> ] --- class: middle center <img src="screen11.png" width="50%" /> .footnote[ [1]King, G., Pan, J., & Roberts, M. E. (2013). How Censorship in China Allows Government Criticism but Silences Collective Expression. American Political Science Review, 107(2), 326–343. https://doi.org/10.1017/S0003055413000014 ] --- class: left # **Predicción** .w-50.fl[ ### - Forecasting: Esta estrategia implica predecir eventos futuros basados en datos históricos. - Nowcasting: Es un tipo especial de pronóstico que se enfoca en medir el estado actual del mundo, o "predecir el presente", utilizando datos y técnicas de pronóstico. ] .w-40.fr[ ### <img src="screen15.png" width="100%" /> ] .footnote[ [1]Hofman, J. M., Watts, D. J., Athey, S., Garip, F., Griffiths, T. L., Kleinberg, J., Margetts, H., Mullainathan, S., Salganik, M. J., Vazire, S., Vespignani, A., & Yarkoni, T. (2021). Integrating explanation and prediction in computational social science. Nature, 595(7866), 181–188. https://doi.org/10.1038/s41586-021-03659-0 ] --- # **Predicción II** .w-50.fl[ ### - Medición oportuna y precisa: Ambas estrategias permiten obtener mediciones más rápidas y precisas de eventos o situaciones actuales, lo que es esencial en escenarios en los que se requiere información actualizada en tiempo real. - Combinación de datos: Al combinar diferentes fuentes de datos, se pueden obtener estimaciones más sólidas y confiables. ] .w-40.fr[ ### <img src="screen16.png" width="100%" /> ] .footnote[ [1]Choi, H., & Varian, H. (2012). Predicting the Present with Google Trends. Economic Record, 88(s1), 2–9. https://doi.org/10.1111/j.1475-4932.2012.00809.x ] --- class: center <img src="screen17.png" width="40%" /> --- # **Experimentos** .w-50.fl[ ### - Los experimentos naturales son situaciones de la vida real en las que el tratamiento se asigna aleatoriamente (o casi aleatoriamente) a ciertas personas y no a otras, lo que permite realizar comparaciones causales. - Ejemplo: Un estudio sobre el efecto del servicio militar en los ingresos utilizó un sorteo de selección para el reclutamiento durante la guerra de Vietnam<sup>1</sup>. ] .w-40.fr[ ### <img src="screen18.png" width="100%" /> ] .footnote[ [1] Angrist, J. D. (1990). Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records. The American Economic Review, 80(3), 313–336. ] --- # **Experimentos II** .w-50.fl[ ### - El matching implica buscar en datos no experimentales parejas de (u objetos) personas similares en todos los aspectos, excepto en la recepción del tratamiento, lo que permite hacer comparaciones más justas. - Ejemplo: Un estudio sobre el efecto del precio inicial en el precio de venta en subastas de eBay utilizó datos de subastas similares para encontrar comparaciones justas <sup>1</sup>. ] .w-40.fr[ ### <img src="screen19.png" width="100%" /> ] .footnote[ [1] Einav, L., Kuchler, T., Levin, J., & Sundaresan, N. (2015). Assessing Sale Strategies in Online Markets Using Matched Listings. American Economic Journal: Microeconomics, 7(2), 215–247. https://doi.org/10.1257/mic.20130046 ] --- class: center <img src="screen20.png" width="50%" /> .footnote[ [1] Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press. ] --- class: middle right background-image: url('dan-cristian-padure-faAKGPMOqWA-unsplash.jpg') background-size: cover # **Hacer preguntas y observar el comportamiento** --- class: center ## **Haciendo preguntas** <img src="screen21.png" width="70%" /> .footnote[ [1] Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press. ] --- class: left middle ## **Tercera Era** - La era digital está dando paso a la tercera era de la investigación por encuestas debido al declive de enfoques de la segunda era y al aumento de las tasas de no respuesta en encuestas telefónicas tradicionales. -- - Se espera que la tercera era se caracterice por el *muestreo no probabilístico*, *las entrevistas administradas por computadora* y la *integración de encuestas con fuentes de big data*. --- class: center middle <img src="screen26.png" width="50%" /> .footnote[ [1] Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press. ] --- class: middle left ## **Haciendo preguntas II** - Gran disponibilidad de datos conductuales en la era digital -- - Sigue siendo esencial formular preguntas para comprender estados internos, emociones, conocimientos, expectativas y opiniones, que son difíciles de inferir solo a partir de datos conductuales --- ## **Ejemplo: Cercanía** .w-50.fl[ ### - Burke y Kraut (2014) combinaron datos de encuesta sobre la fuerza de la amistad y la interacción fuera de Facebook, con datos de registro de Facebook - Concluyeron que la comunicación a través de Facebook, de hecho, condujo a un aumento de los sentimientos de cercanía. .footnote[ [1] Burke, M., & Kraut, R. E. (2014). Growing closer on facebook: Changes in tie strength through social network site use. Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, 4187–4196. https://doi.org/10.1145/2556288.2557094 ] ] .w-40.fr[ ### <img src="screen22.png" width="90%" /> ] --- class: left middle ## Big data y encuestas. - Las fuentes de big data en realidad pueden aumentar el valor de hacer preguntas - La mejor manera de pensar sobre la relación entre preguntar y observar es que son complementos más que sustitutos --- ## **Marco de error** .w-50.fl[ ### - Marco de Error Total en Encuestas: Los investigadores han desarrollado el marco de error total en encuestas, que destaca dos **tipos** de errores en la investigación por encuestas: **sesgo y varianza**. - Equilibrar estos errores es crucial para evaluar los procedimientos de encuesta. ] .w-40.fr[ ### <img src="screen23.png" width="70%" /> ] .footnote[ [1] Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press. ] --- class: left middle ## **Marco de error II** - El marco identifica dos **fuentes** de errores en la investigación por encuestas: **errores de representación** relacionados con quiénes son encuestados y **errores de medición** relacionados con la información obtenida de los encuestados. - Las ideas sobre representación y medición pueden guiar la investigación por encuestas en la era digital. --- class: left middle ## **Representación** - La representación se trata de inferir de los encuestados a la población objetivo. - **Errores de Cobertura y Sesgo**: En el caso del famoso fracaso de la encuesta de la revista Literary Digest en 1936, la revista cometió errores de cobertura y sesgo. Los encuestados seleccionados (frame population) eran diferentes de la población objetivo, lo que llevó a una muestra sesgada. - **Selección de Muestra**: En la encuesta de Literary Digest, no hubo muestreo porque intentaron contactar a todos en la población marco. Sin embargo, en otras encuestas, la selección de muestra puede introducir errores de muestreo si los encuestados difieren de la población marco. - **Respuestas y Sesgo de No Respuesta**: Cuando algunos seleccionados no responden a la encuesta, puede haber sesgo de no respuesta. En el caso de Literary Digest, aquellos que apoyaban a Landon fueron más propensos a responder, lo que generó sesgo en los resultados. --- class: middle left ## **Representación II** - Lección clave: una gran cantidad de datos recopilados de manera cruda (haphazard) no garantiza una buena estimación. Además, los investigadores deben tener en cuenta cómo se recopiló la muestra al hacer estimaciones y usar un proceso de estimación más complejo para ponderar algunos encuestados más que otros. --- class: left middle ## **Limitaciones del Costo** - Las encuestas no son gratuitas, y el costo es una restricción real para la investigación. - Relación Costo-Calidad: Se realizó un estudio que empleó procedimientos "rigurosos" para reducir la tasa de no respuesta, pero esto aumentó significativamente los costos y ralentizó el proceso. Ambos estudios produjeron estimaciones esencialmente idénticas. --- class: center middle <img src="screen28.png" width="40%" /> --- class: center middle <img src="screen25.png" width="50%" /> .footnote[ [1] Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press. ] --- class: center middle <img src="screen27.png" width="50%" /> .footnote[ [1] Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press. ] --- class: middle left ## **El momento del muestreo no probabilístico** - Con los avances digitales, el muestreo no probabilístico se ha vuelto más rápido, más económico y más efectivo. -- - La digitalización ha generado oportunidades para encuestas más frecuentes y tamaños de muestra más grandes. -- - El desarrollo de métodos de muestreo no probabilístico ha avanzado significativamente, y algunos métodos, como las encuestas en línea, han logrado resultados precisos al usar técnicas de post-estratificación. -- - La post-estratificación es una técnica que ajusta las estimaciones de una muestra no probabilística utilizando información auxiliar sobre la población objetivo. -- - Multilevel Regression with Post-Stratification (MRP) --- ## **Medición** .w-60.fl[ ### - La medición se trata de inferir lo que piensan y hacen los encuestados a partir de lo que dicen. - **Errores de Medición**: El marco de error total en encuestas muestra que la segunda fuente principal de errores es la medición, es decir, cómo se hacen inferencias a partir de las respuestas que los encuestados dan a nuestras preguntas. - **Efectos de la Forma y Redacción de Preguntas**: Algunas preguntas pueden producir resultados diferentes según cómo se formulen o redacten. ] .w-40.fr[ ### <img src="screen29.png" width="90%" /> ] --- class: center middle <img src="screen30.png" width="90%" /> --- class: middle right background-image: url('dan-cristian-padure-faAKGPMOqWA-unsplash.jpg') background-size: cover ### **Vinculando encuestas y big data** --- class: center middle <img src="screen31.png" width="50%" /> .footnote[ [1] Salganik, M. J. (2018). Bit by bit: Social research in the digital age. Princeton University Press. ] --- class: left middle ### **Enriquecimiento de Preguntas** - En este enfoque, implican la información de una fuente de big data con ciertas mediciones clave, pero que carece de otras. -- - Las mediciones faltantes se recopilan a través de una encuesta, y luego se vinculan ambas fuentes de datos para obtener una imagen más completa y detallada. -- - Ansolabehere & Hersh (2017), usaron registros de votación digitalizados y datos de encuestas para comprender mejor el comportamiento de voto en Estados Unidos -- - Aprovecharon el hecho de que las compañías privadas habían recopilado y fusionado registros de votación para crear archivos maestros de votación, permitiendo un análisis más exhaustivo. .footnote[ [1] Ansolabehere, S., & Hersh, E. (2017). Validation: What Big Data Reveal About Survey Misreporting and the Real Electorate. Political Analysis, 20(4), 437–459. https://doi.org/10.1093/pan/mps023 ] --- .w-40.fl[ ### <img src="screen32.png" width="100%" /> ] .w-40.fr[ ### <img src="screen33.png" width="100%" /> ] .footnote[ [1] Ansolabehere, S., & Hersh, E. (2017). Validation: What Big Data Reveal About Survey Misreporting and the Real Electorate. Political Analysis, 20(4), 437–459. https://doi.org/10.1093/pan/mps023 ] --- class: left middle ### **Enriquecimiento de Preguntas III** - **Desafíos:** - la falta de identificadores únicos en ambas fuentes de datos para vincular registros de manera precisa. - la calidad de la fuente de datos masivos puede ser difícil de evaluar debido a posibles problemas de creación de datos y confidencialidad. .footnote[ [1] Ansolabehere, S., & Hersh, E. (2017). Validation: What Big Data Reveal About Survey Misreporting and the Real Electorate. Political Analysis, 20(4), 437–459. https://doi.org/10.1093/pan/mps023 ] --- class: left middle ### **Amplificación de Preguntas** - Aquí se utiliza un modelo predictivo para combinar un conjunto pequeño de datos de encuestas con una fuente de datos masivos más grande. -- - El objetivo es obtener estimaciones a una escala o nivel de detalle que no serían posibles utilizando solo una de las fuentes de datos. -- - Ejemplo: Blumenstock et. al. (2015) utilizaron registros de llamadas telefónicas para predecir respuestas a encuestas sobre riqueza y bienestar en Ruanda. Construyeron un modelo de aprendizaje automático que utilizaba características de las llamadas para predecir cómo las personas responderían a preguntas de encuestas, permitiendo inferir información para un grupo mucho más grande de individuos. .footnote[ [1] Blumenstock, J., Cadamuro, G., & On, R. (2015). Predicting poverty and wealth from mobile phone metadata. Science, 350(6264), 1073–1076. ] --- class: left middle ### **Amplificación de Preguntas II** .w-50.fl[ ### - **Desafíos:** - En este enfoque, es esencial realizar una ingeniería de características adecuada para convertir los datos de la fuente masiva en información relevante para la encuesta. - Además, los modelos predictivos deben ser cuidadosamente diseñados y validados para garantizar que las predicciones sean precisas. ] .w-40.fr[ ### <img src="screen3.png" width="100%" /> ] .footnote[ [1] Blumenstock, J., Cadamuro, G., & On, R. (2015). Predicting poverty and wealth from mobile phone metadata. Science, 350(6264), 1073–1076. ] --- class: middle right background-image: url('dan-cristian-padure-faAKGPMOqWA-unsplash.jpg') background-size: cover ### **Colaboraciones Masivas** --- class: left middle ### **Proyectos de Computación Humana*** .w-50.fl[ ### - Estos proyectos son ideales para resolver problemas de gran escala que requieren tareas sencillas pero en gran cantidad. - Las contribuciones no necesitan habilidades específicas y el resultado final suele ser un promedio de todas las contribuciones. - **Ejemplo:** *Galaxy Zoo*, donde miles de voluntarios ayudaron a clasificar un millón de galaxias, siendo el resultado final un consenso de las contribuciones individuales. ] .w-50.fr[ ### <img src="screen35.png" width="100%" /> ] .footnote[ [1] https://www.zooniverse.org/ ] --- class: left middle ### **Proyectos de Llamado Abierto (Open Call)** .w-50.fl[ ### - Estos proyectos son adecuados para problemas que buscan respuestas novedosas y no esperadas a preguntas claramente formuladas. - Las contribuciones provienen de personas con habilidades especializadas relacionadas con la tarea propuesta y el resultado final suele ser la mejor de todas las contribuciones. - **Ejemplo**: El premio Netflix, donde miles de científicos y hackers colaboraron para desarrollar nuevos algoritmos de predicción de calificaciones de películas. ] .w-40.fr[ ### <img src="screen36.png" width="100%" /> ] .footnote[ [1] https://en.wikipedia.org/wiki/Netflix_Prize ] --- class: left middle ### **Proyectos de Recopilación de Datos Distribuidos** .w-50.fl[ ### - Estos proyectos son idóneos para recopilar datos a gran escala. - Las contribuciones vienen de personas que tienen acceso a ubicaciones que los investigadores no tienen y el producto final es una simple colección de contribuciones. - **Ejemplo**: eBird, donde cientos de miles de voluntarios aportan informes sobre las aves que observan. ] .w-50.fr[ ### <img src="screen37.png" width="100%" /> ] .footnote[ [1] https://ebird.org/home ] --- class: middle right background-image: url('dan-cristian-padure-faAKGPMOqWA-unsplash.jpg') background-size: cover ### **El futuro** --- class: left middle ### **Estrategias de Colaboración Híbridas** - La estrategia pura de "ready-made" (listas para usar) o "custom-made" (hechas a medida) no aprovecha completamente las capacidades de la era digital. - El enfoque **híbrido** combina la escala de "ready-made" con la adaptación precisa entre pregunta y datos de "custom-made". Ejemplo: Enriquecimiento de fuentes de datos masivas con información adicional para hacerlas más aptas para la investigación. --- class: left middle ### **Enfoque Centrado en los Participantes en la Recopilación de Datos** - Los enfoques tradicionales de recopilación de datos centrados en los investigadores no funcionarán tan bien en la era digital. - Se adoptará un **enfoque centrado en los participantes**, ya que la interacción ocurre a menudo a través de computadoras y la atención de los participantes es crucial. - **Ejemplos**: Uso de juegos para encuestas, experimentos atractivos para los participantes, colaboraciones masivas motivadas por experiencia agradable. --- class: middle .w-40.fl[ ### <img src="screen38.png" width="100%" /> ] .w-40.fr[ ### <img src="screen39.png" width="100%" /> ] .footnote[ - [1] Salganik, M. J., Dodds, P. S., & Watts, D. J. (2006). Experimental Study of Inequality and Unpredictability in an Artificial Cultural Market. Science, 311(5762), 854–856. https://doi.org/10.1126/science.1121066 - [2] Molina, M. D., Bucca, M., & Macy, M. W. (2019). It’s not just how the game is played, it’s whether you win or lose. Science Advances, 5(7), eaau1156. https://doi.org/10.1126/sciadv.aau1156 ] --- class: middle left ## **Ética en el Diseño de la Investigación** .w-50.fl[ ### - La ética pasará de ser una preocupación periférica a central y será un tema de investigación. - Se espera una evolución hacia un enfoque basado en principios en lugar de enfoques basados en reglas o ad hoc. - La ética se convertirá en una parte integral de la investigación social y se abordarán desafíos éticos como áreas de investigación. ] .w-40.fr[ ### <img src="ethics.gif" width="80%" /> ] --- class: middle left ### **Principios Éticos Fundamentales** - **Respeto por las Personas**: Este principio implica tratar a las personas como seres autónomos y honrar sus deseos y decisiones. Reconoce la importancia de obtener el consentimiento informado y el respeto por la privacidad de los participantes. -- - **Beneficencia**: Se trata de equilibrar los riesgos y beneficios de la investigación. Los investigadores deben evaluar y mejorar el perfil de riesgo/beneficio de su estudio para garantizar que los posibles beneficios superen los riesgos para los participantes. -- - **Justicia**: Este principio busca asegurar una distribución justa de los riesgos y beneficios de la investigación, evitando la explotación o discriminación de ciertos grupos. La investigación debe beneficiar a la sociedad en su conjunto de manera equitativa. -- - **Respeto por la Ley y el Interés Público**: Amplía el principio de beneficencia para incluir a todas las partes interesadas relevantes. Los investigadores deben considerar el impacto de su investigación en la comunidad y la sociedad en general, además de cumplir con las leyes y regulaciones aplicables. --- class: middle left ### **Ventajas del Enfoque Basado en Principios*** - **Flexibilidad y Adaptabilidad**: En lugar de reglas rígidas, los principios éticos ofrecen un marco adaptable que puede aplicarse a una variedad de situaciones éticas cambiantes. -- - **Toma de Decisiones Reflexiva**: Los investigadores pueden abordar cuestiones éticas de manera más profunda y considerada, teniendo en cuenta múltiples aspectos en lugar de simplemente seguir reglas predefinidas. -- - **Complejidad Ética**: Los principios éticos permiten abordar la complejidad de los desafíos éticos emergentes en la investigación digital, ya que a menudo las situaciones no se ajustan a reglas específicas. -- - **Enfoque Preventivo**: Al considerar los principios éticos desde el inicio de la investigación, se pueden identificar y abordar problemas éticos potenciales antes de que se conviertan en problemas. -- - **Énfasis en la Responsabilidad Social**: El enfoque basado en principios no solo se preocupa por el cumplimiento de las reglas, sino que también promueve la responsabilidad social y la contribución positiva a la sociedad. --- class: middle right background-image: url('ernest-karchmit-UAbg0py6GYQ-unsplash.jpg') background-size: cover # **Muchas Gracias** ### **Esta presentación fue realizada con el paquete [Xaringan](https://slides.yihui.org/xaringan), diseñado para entorno [R](https://www.r-project.org/)**