
1) Resumen general y objetivo principal
En esta parada del Tren Libros de Evaluación analizamos en historico informe Broadening the Range of Designs and Methods for Impact Evaluation (DFID Working Paper 38, 2012) de los autores: Eliot D. Stern, Nicoletta Stame, John Mayne, Kim Forss, Rick Davies y Barbara Befani. (eba.se) Este informe nace para resolver un problema práctico: los métodos dominantes de evaluación de impacto (EI) —sobre todo experimentales y estadísticos— sólo encajan con una fracción de los programas reales, especialmente en cooperación y políticas públicas complejas. Su objetivo es ampliar el repertorio y ofrecer criterios de selección que prioricen la adecuación al contexto y a las preguntas evaluativas, no la adhesión a una jerarquía rígida de métodos. De hecho, el equipo afirma que “alternativas a los diseños experimentales y cuasi-experimentales pueden alcanzar igual robustez y credibilidad: son diferentes pero equivalentes” (“different but equal”). (assets.publishing.service.gov.uk)
2) Análisis detallado de capítulos y secciones clave
El documento se organiza en siete capítulos más un resumen ejecutivo. A continuación, la línea argumental y los puntos críticos: (GOV.UK)
- Introduciendo el informe: plantea el dilema entre el ideal de “máxima rigurosidad” y la viabilidad en programas complejos; encuadra la propuesta como una agenda pragmática para donantes y evaluadores.
- Definiendo evaluación de impacto: precisan “impacto” como cambio atribuible total o parcialmente a la intervención, sin restringirse al contrafactual experimental; importan las nociones de contribución, mecanismos y configuraciones causales.
- Eligiendo disenos y metodos: sustituyen la “elección por método preferido” por una matriz de decisión guiada por: preguntas de evaluación, atributos del programa, supuestos causales, disponibilidad de datos y restricciones.
- Preguntas de evaluacion y disenos de evaluacion: demuestran que las preguntas (qué queremos saber) anteceden al diseño; diferencian preguntas sobre eficacia promedio, mecanismos, contextos habilitantes, implementabilidad y efectos no intencionados.
- Atributos y diseno del Programa: según escala, madurez, teoría de cambio y complejidad del sistema, recomiendan itinerarios metodológicos: desde RCTs y cuasi-experimentos (cuando procede) hasta Contribution Analysis, Realist Evaluation, QCA, Process Tracing, estudios de caso comparados, métodos participativos y diseños mixtos.
- Aseguramiento de la calidad: establecen estándares de calidad transversales (validez, credibilidad, coherencia, transparencia, utilidad) para todas las familias de métodos, evitando la falsa dicotomía “cuantitativo = riguroso / cualitativo = débil”.
- Conclusiones y proximos pasos: institucionalizan la noción de pluralidad metodológica responsable y llaman a invertir en capacidades para diseñar, comisionar y defender evaluaciones “apropiadas pero rigurosas”.
Nota: el informe se complementa con un anexo técnico de Befani sobre modelos de causalidad e inferencia causal (sucesionista/contrafactual, generativa/realista, configuracional), que fundamenta los “tres caminos” hacia la causalidad usados en la guía. (Mande)
3) Temas y mensajes principales del equipo (Stern, Stame, Mayne, Forss, Davies, Befani)
- Del monopolio a la ecología de métodos: no hay método “rey”; hay problemas y preguntas que piden diseños distintos.
- Causalidad plural: contrafactual (efectos promedio), generativa (mecanismos C-M-O) y configuracional (combinaciones causales y equifinalidad) coexisten y se complementan.
- Rigor ≠ un solo estándar: el rigor se garantiza con criterios de calidad adaptados a cada enfoque y con triangulación planificada desde el diseño.
- Utilidad y uso: la evaluación aporta aprendizaje para la gestión adaptativa, además de rendición de cuentas; el valor está en responder bien a lo que importa.
4) Innovación y valor añadido frente a otras obras
- Reformula la conversación: del “RCT vs. resto” a “¿qué diseño sirve mejor a esta decisión, con esta teoría de cambio y en este contexto?”.
- Integra escuelas antes separadas (3ie/contrafactual, realismo, teoría-basada, configuracional) en un marco común de elección.
- Eleva el listón de la calidad para métodos no experimentales, ofreciendo criterios auditables que los financiadores pueden aceptar.
- Traduce a gestión: provee un lenguaje y una lógica de trazabilidad que ayuda a defender diseños mixtos ante comités y auditores. (gsdrc.org)
5) Utilidad práctica y “cómo aplicarlo mañana”
- Secuencia decisión-diseño: (a) fijar decisiones/usuarios; (b) derivar preguntas evaluativas; (c) explicitar teoría de cambio y supuestos críticos; (d) mapear el sistema (actores, contextos, riesgos de sesgo); (e) seleccionar ruta(s) causal(es) y diseño mixto “mínimo suficiente” de rigor; (f) plan de calidad (validez interna/externa, coherencia teórica, trazabilidad de inferencias).
- Itinerarios recomendados (ejemplos):
- Escala grande con asignación programada → RDD/DiD + análisis de heterogeneidad + causalidad generativa para mecanismos.
- Innovaciones piloto con mucha incertidumbre → Developmental/Realist Evaluation + Process Tracing para refinar hipótesis causales.
- Programas multicomponente → Contribution Analysis + QCA para identificar paquetes causales y condiciones necesarias/suficientes.
- Gestión del “riesgo de método”: acordar desde el inicio criterios de calidad, margen ético y plan de datos (para no quedar rehén de datasets imposibles).
- Comunicación: productos escalonados (briefs + anexos técnicos), tablas de inferencia y mapas C-M-O.
6) Críticas y opiniones (equilibradas)
- A favor: legitimó el uso responsable de métodos alternativos y los diseños mixtos; facilitó la contratación de evaluaciones más pertinentes en sectores complejos.
- Reparos: hay quien señala que no baja siempre al nivel técnico (p. ej., protocolos detallados de QCA/PT), y que los costes y capacidades necesarias pueden ser elevados; además, persiste preferencia institucional por estimadores de efectos promedio aun cuando no responden a la pregunta clave.
7) Comparación con obras afines (y con los autores del informe)
- Mayne (coautor) ya había asentado Contribution Analysis como alternativa sólida para atribución razonada.
- Stame ha impulsado evaluación teoría-basada en Europa; Befani sistematiza la inferencia causal plural y la configuracional; Davies es clave en métodos participativos (p. ej., Most Significant Change) y uso de evidencia cualitativa; Forss aporta enfoque de diseño sensible a políticas; Stern traduce todo esto a gobernanza de la evaluación.
- Con Pawson & Tilley (1997), comparte la atención a mecanismos y contextos; con White (2009, 2010), dialoga sobre teoría-basada y pluralidad metodológica; con Patton (2011), coincide en aprendizaje adaptativo; con Bamberger et al. (2010), en mixtura estratégica de métodos.
8) Lecturas complementarias (y para qué)
- Shadish, Cook & Campbell (2002): el canon del diseño cuasi-experimental (para robustecer la pata contrafactual).
- Pawson & Tilley (1997): realismo y mecanismos (cómo funciona).
- Mayne (2011): Contribution Analysis paso a paso (atribución razonada).
- Ragin (2008): QCA y lógica booleana (configuraciones causales).
- Beach & Pedersen (2013): Process Tracing (pruebas, inferencia bayesiana).
- Patton (2011): Developmental Evaluation (innovación y complejidad).
- Bamberger, Rao & Woolcock (2010): métodos mixtos en desarrollo.
9) Impacto cultural y social (recepción y adopciones con tiempo y lugar)
- 2012–2014 (agencias y think tanks): el informe circula ampliamente (GSDRC, IDS, BEAM Exchange) y se usa como texto base para ampliar la noción de diseño apropiado. (gsdrc.org)
- 2015 (traslado a guías operativas): Stern publica Impact Evaluation: A Guide for Commissioners and Managers, derivada del Working Paper 38 y con reconocimiento explícito a Stame, Mayne, Forss, Davies y Befani, señal de institucionalización del enfoque en formación de donantes y ONGs. (assets.publishing.service.gov.uk)
- 2016–2023 (normalización): referencias en toolkits y plantillas de calidad de la Comisión Europea y otras instancias, incorporando la idea de ajuste diseño-pregunta-contexto y citando el WP38. (European Commission)
10) Ediciones y/o versiones
No hay “ediciones revisadas” del WP38; sin embargo, el anexo de Befani sobre causalidad (2012) y la guía de Stern (2015) funcionan como desarrollos y traducciones operativas. En repositorios institucionales se mantiene el texto original (abril 2012). (assets.publishing.service.gov.uk)
11) Fuentes e influencias (hacia atrás y hacia delante)
Referentes que nutren la obra
- Teoría-basada (Weiss; White, 2009/2010).
- Realist Evaluation (Pawson & Tilley, 1997).
- Contribution Analysis (Mayne, 2011).
- Configuracional / QCA (Ragin, 2008).
- Mixtura de métodos (Bamberger et al., 2010).
- Sistemas y complejidad (Williams & Imam, 2007). (assets.publishing.service.gov.uk)
Quién lo cita / cómo se usa después
- Donantes europeos y multilaterales (plantillas de calidad, cursos internos). (European Commission)
- Guías de formación y comisionamiento de EI (p. ej., Stern 2015). (assets.publishing.service.gov.uk)
La pieza más influyente y citada
- El postulado “different but equal” y el marco de “tres caminos hacia la causalidad” (contrafactual, generativo y configuracional), que desatascan debates estériles y legitiman diseños mixtos con estándares de calidad explícitos. (assets.publishing.service.gov.uk)
Ejemplos de uso con sello temporal
- 2015: incorporación a guías de comisionamiento (UK y donantes afines). (assets.publishing.service.gov.uk)
- 2021–2023: ecos en plantillas metodológicas de la CE para elegir diseño según pregunta y atributos del programa. (European Commission)
12) Breve biografía de los autores (y sus aportes intelectuales)
- Eliot D. Stern: evaluador británico, exeditor de Evaluation; puente entre teoría y gobernanza de la evaluación; lidera este estudio y luego lo traduce a guía operativa (2015). (assets.publishing.service.gov.uk)
- Nicoletta Stame: referente europea en evaluación teoría-basada y evaluación de políticas; énfasis en adecuación de diseños.
- John Mayne: creador de la Contribution Analysis; pionero en atribución razonada bajo incertidumbre.
- Kim Forss: experto en evaluación de políticas y cooperación; difusión del WP38 en foros de diseño de EI. (eba.se)
- Rick Davies: impulsor de métodos participativos (p. ej., Most Significant Change), defensor de evidencia cualitativa en decisiones.
- Barbara Befani: metodóloga de inferencia causal y configuracional (QCA); autora del anexo sobre causalidad del WP38. (Mande)
Consejos accionables (checklist rápido para tu práctica)
- Empieza por las decisiones (quién usará qué).
- Escribe 3–5 preguntas evaluativas ligadas a esas decisiones.
- Mapea la teoría de cambio y riesgos de sesgo.
- Elige la(s) ruta(s) causal(es) (contrafactual / generativa / configuracional) y combina métodos en consecuencia.
- Acuerda estándares de calidad y productos de comunicación desde el contrato.
Reflexión final
Este libro es una estación de intercambio. A un lado llega el tren de los promedios; al otro, el de los mecanismos y el de las configuraciones. Stern, Stame, Mayne, Forss, Davies y Befani nos invitan a cambiar de vía cuando la pregunta lo requiera. En el Tren de Libros de Evaluación, este post e informe enseña a hacer transbordos con criterio, para que el viaje del aprendizaje compartido no termine en una vía muerta de ortodoxias.
Referencias
- Stern, E. D., Stame, N., Mayne, J., Forss, K., Davies, R., & Befani, B. (2012). Broadening the range of designs and methods for impact evaluations (DFID Working Paper 38). Department for International Development. https://assets.publishing.service.gov.uk/media/5a74eba7e5274a59fa71600d/design-method-impact-eval.pdf
- Befani, B. (2012). Models of causality and causal inference (Annex to DFID Working Paper 38). Department for International Development.
- Stern, E. D. (2015). Impact evaluation: A guide for commissioners and managers. Big Lottery Fund/Bond/Comic Relief/DFID.
- Bamberger, M., Rao, V., & Woolcock, M. (2010). Using mixed methods in monitoring and evaluation. World Bank.
- Beach, D., & Pedersen, R. B. (2013). Process-tracing methods: Foundations and guidelines. University of Michigan Press.
- Mayne, J. (2011). Contribution analysis: Addressing cause and effect. In K. Forss, M. Marra, & R. Schwartz (Eds.), Evaluating the complex (pp. 53–96). Transaction.
- Patton, M. Q. (2011). Developmental evaluation: Applying complexity concepts to enhance innovation and use. Guilford.
- Pawson, R., & Tilley, N. (1997). Realistic evaluation. SAGE.
- Ragin, C. C. (2008). Redesigning social inquiry: Fuzzy sets and beyond. University of Chicago Press.
- Shadish, W. R., Cook, T. D., & Campbell, D. T. (2002). Experimental and quasi-experimental designs for generalized causal inference. Houghton Mifflin.
- White, H. (2009). Theory-based impact evaluation: Principles and practice. Journal of Development Effectiveness, 1(3), 271–284.
- White, H. (2010). A contribution to current debates in impact evaluation. Evaluation, 16(2), 153–164.
- Williams, B., & Imam, I. (Eds.). (2007). Systems concepts in evaluation: An expert anthology. EdgePress/AES.
Nota: Este artículo fue redactado con apoyo de inteligencia artificial, que también sugirió algunas de las referencias bibliográficas incluidas. Sin embargo, las ideas centrales, el enfoque y la selección final del contenido son completamente mías