Dificultad y discriminación de los ítems del examen de Metodología de la Investigación y Estadística

Gemma Margarita Ortiz Romero; Pedro Augusto Díaz Rojas; Olianka Rosa Llanos Domínguez; Silvia María Pérez Pérez; Kariné González Sapsin

Dificultad y discriminación de los ítems del examen de Metodología de la Investigación y Estadística

ARTÍCULO ORIGINAL

Dificultad y discriminación de los ítems del examen de Metodología de la Investigación y Estadística

Difficulty and discrimination of the items of the exams of Research Methodology and Statistics

Gemma Margarita Ortiz Romero¹, Pedro Augusto Díaz Rojas², Olianka Rosa Llanos Domínguez³, Silvia María Pérez Pérez⁴, Kariné González Sapsin⁵

¹Licenciada en Educación. Especialidad Veterinaria. Máster en Educación Médica. Asistente. Departamento de Informática Médica. Universidad de Ciencias Médicas de Holguín. Cuba. Correo electrónico: gemma@ucm.hlg.sld.cu
²Doctor en Medicina. Especialista de II Grado en Histología. Máster en Educación Médica. Profesor Titular. Departamento de Posgrado. Universidad de Ciencias Médicas de Holguín. Cuba. Correo electrónico: pdiaz@infomed.sld.cu
³Ingeniera. Instructor. Departamento de Informática Médica. Universidad de Ciencias Médicas de Holguín. Cuba. Correo electrónico: oli@ucm.hlg.sld.cu
⁴Licenciada en Educación. Especialidad Matemática y Computación. Profesora Auxiliar. Departamento de Informática Médica. Universidad de Ciencias Médicas de Holguín. Cuba. Correo electrónico: silviap@ucm.hlg.sld.cu
⁵Doctora en Medicina. Especialista de II Grado en Medicina General Integral. Máster en Educación Médica. Instructor. Departamento de Ciencias Básicas. Universidad de Ciencias Médicas de Holguín. Cuba. Correo electrónico: karine@ucm.hlg.sld.cu

RESUMEN

Fundamento: la evaluación del aprendizaje es un proceso consustancial al desarrollo del proceso docente educativo que permite su regulación y retroalimentación.
Objetivo: valorar el comportamiento del índice de dificultad y del coeficiente de discriminación en los ítems del examen final de la asignatura Metodología de la Investigación y Estadística.
Métodos: se realizó una investigación descriptiva en la Universidad de Ciencias Médicas de Holguín durante el curso 2010-2011. El universo de estudio estuvo constituido por el total de exámenes finales ordinarios de la asignatura Metodología de la Investigación y Estadística del cual se seleccionó una muestra intencionada de 276 exámenes. Se utilizaron como método teóricos: análisis-síntesis e inducción-deducción, y empíricos: análisis documental y encuesta en forma de entrevista a seis informantes clave. Se analizó la correspondencia del fondo de tiempo y la cantidad de ítems explorados en el examen, se calculó el índice de dificultad y el coeficiente de correlación del punto biserial de los ítems del examen.
Resultados: se evidenció la no correspondencia entre el tiempo dedicado a cada tema y la cantidad de ítems explorados, la cantidad de ítems fáciles superó ligeramente el porciento esperado, discriminaron de forma excelente la mayoría de los ítems.
Conclusiones: la valoración de los indicadores aplicados demostró predominio de los ítems de dificultad media y de excelente poder discriminativo. Los ítems que no discriminaron de forma adecuada coincidieron en ser clasificados como fáciles, con dificultades en su elaboración y nivel de asimilación reproductivo.

DeCS: Evaluación educacional, aprendizaje, metodología.

ABSTRACT

Background: the evaluation of learning is an inherent process of the development of the educational-teaching process that allows its regulation and feedback.
Objective: to value the behavior of the index of difficulty and the discrimination coefficient in the items of the final exam of the subject Research Methodology and Statistics.
Methods: it was carried out an educational research work in Holguín University of Medical Sciences during the academic year 2010-2011. The study universe was constituted by the total of ordinary final exams of the subject Research Methodology and Statistics, on purposive sampling 276 exams were selected. There were used as theoretical method: analysis-synthesis and induction-deduction, and empiric ones: documental analysis, the survey in interview form was applied to six key informants. The correspondence between the duration of the exam and the quantity of items explored in the exam was analyzed, it was calculated the index of difficulty and the coefficient of correlation of the difficulty level of the items exam.
Results: it was evidenced the non correspondence between the time dedicated to each topic and the quantity of explored items, the quantity of easy items overcame the expected percent lightly. There were discriminated in an excellent way most of the items.
Conclusions: the valuation of the applied indicators demonstrated prevalence of the items of average difficulty and excellent discriminatory power. The items that were not discriminated in an appropriate way coincided with those classified as easy, with difficulties in their elaboration and reproductive level of assimilation.

MeSH: Educational measurement, learning, methodology.

INTRODUCCIÓN

La educación superior cubana pone todo su empeño en fortalecer el proceso de formación integral de los estudiantes universitarios por la necesidad de lograr un profesional creativo, independiente y preparado para asumir su autoeducación durante toda la vida.¹Esto demanda la constante evaluación de todos los procesos que en ella se desarrollan.

La complejidad de la evaluación es consecuencia directa de la del propio proceso enseñanza aprendizaje, al que cada día se le exigen tareas más amplias; actualmente la educación no se valora tanto como un proceso de transmisión de conocimientos, sino formativo en el que se contempla desde el desarrollo de habilidades básicas hasta la adquisición de los comportamientos sociales y la formación en valores, aspectos de relevante importancia en la educación médica superior.

La evaluación del aprendizaje es un proceso consustancial al desarrollo del proceso docente educativo. Tiene como propósito comprobar el grado de cumplimiento de los objetivos formulados en los planes y programas de estudio de la educación superior, mediante la valoración de los conocimientos y habilidades que los estudiantes adquieren y desarrollan; así como por la conducta que manifiestan en el proceso docente educativo. Constituye a su vez, una vía para la retroalimentación y la regulación de dicho proceso.²

La evaluación del aprendizaje es en esencia el análisis cualitativo de los cambios que se efectúan en el estudiante, en relación con el aprendizaje académico y laboral, así como el nivel de desarrollo de la personalidad en un semestre, estancia o curso.³

Lo expuesto anteriormente exige a todos los encargados de la formación de los estudiantes a realizar una correcta evaluación y control de sus posibilidades, para poder aceptar o rechazar un resultado, pues al no ser confiables no se podrá saber qué niveles de conocimientos tienen los alumnos ni cuáles son los fallos que se producen en el proceso formativo, razones que obligan a los colectivos al análisis de su situación para proponer mejoras en la enseñanza.

En el ciclo básico de la carrera de Medicina juega un rol importante la disciplina Informática Médica, una de sus asignaturas es Metodología de la Investigación y Estadística que posibilita desarrollar la capacidad organizativa y el hábito de proceder reflexivamente en el enfrentamiento de los problemas relacionados con el tratamiento metodológico y estadístico de la información médica, a la vez que vincula sus contenidos con la práctica de la profesión y la vida social, en particular su aplicación en la asistencia, docencia, investigación y gerencia en los diferentes niveles de atención de salud.⁴

Tradicionalmente se puede constatar que al concluir la asignatura, en la aplicación del examen final existe una falta de correspondencia entre los resultados esperados por el colectivo de profesores y los reales; lo que no tiene explicación aparente si se tiene en cuenta que los instrumentos evaluativos se confeccionan según los objetivos propuestos en el programa de estudio y tratados a lo largo del proceso docente en la referida asignatura. Además no se cuenta con una valoración científica de la calidad del examen final que posibilite un análisis profundo de las dificultades presentes.

La construcción de forma empírica de los instrumentos para evaluar el aprendizaje de los estudiantes ocasiona problemas con su calidad, con relativa frecuencia sus resultados no miden el cumplimiento de los objetivos educacionales propuestos y las calificaciones otorgadas no expresan de forma real y objetiva su nivel de aprovechamiento como para generalizarlos y determinar el nivel alcanzado en su competencia profesional, en correspondencia con la escala de calificación empleada.⁵

Es necesario un sistema de evaluación lo más sólido posible, y que los instrumentos a emplear en los controles tengan la calidad requerida y se pongan a prueba.⁶

A partir del análisis anterior se revela la necesidad de realizar estudios que caractericen los instrumentos evaluativos que se aplican en la referida asignatura, a partir de los cuales se puedan trazar estrategias metodológicas necesarias para su perfeccionamiento y elevación de su calidad, para favorecer la formación de un profesional más competente.

La presente investigación se realiza con el objetivo de evaluar el comportamiento del índice de dificultad y del coeficiente de discriminación en los ítems del examen final de la asignatura Metodología de la Investigación y Estadística aplicado a los estudiantes de segundo año de la carrera de Medicina en la provincia Holguín durante el curso 2010-2011.

MÉTODOS

Se realizó una investigación descriptiva en la Universidad de Ciencias Médicas de Holguín. El universo estuvo constituido por el total de exámenes finales ordinarios de la asignatura Metodología de la Investigación y Estadística, aplicado a los estudiantes de segundo año de la carrera de Medicina durante el curso 2010-2011. Se seleccionó una muestra intencionada de 276 exámenes.

Se utilizaron los siguientes métodos:

Teóricos:

Análisis-síntesis e inducción-deducción para los referentes teóricos del tema, el estudio de la bibliografía relacionada con el proceso docente educativo, la evaluación del aprendizaje, calidad de los instrumentos de evaluación y otros asuntos de interés, y para la interpretación de los datos obtenidos.

Empíricos:

Análisis documental: para la revisión del programa y otros documentos normativos de la asignatura y la carrera de Medicina.

Entrevista a informantes clave: para caracterizar el examen según su formato, los contenidos que evalúan, el criterio de respuestas correctas en los ítems de tipo ensayo y la clasificación de la escala de dificultad de ellos. Para ello se seleccionaron seis profesores de la sede central con más de 15 años de experiencia docente y más de ocho años de trabajo en ciencias médicas, con cargos de dirección de jefes de departamento, y profesores del Departamento de Informática Médica, con categoría docente superior.

En una hoja de cálculo de Microsoft Excel se tabularon los resultados del examen objeto de estudio, se incluyeron además los resultados de cada ítem del examen categorizados en aprobado (1) y suspenso (0), para su posterior procesamiento estadístico.

Para determinar si existió o no correspondencia entre la cantidad de horas y la cantidad de ítems de los temas explorados en el examen, se aplicó el coeficiente de correlación por rangos de Spearman.

Se calculó el índice de dificultad por ítem, para el cual se dividió el número de personas que lo contestó correctamente entre el número total de personas que lo contestaron. Usualmente, a esta proporción se le denota con una p y se utilizó la siguiente fórmula:^5,7,8

Con el apoyo de los informantes clave se elaboró la escala de clasificación del nivel de dificultad de los ítems del examen y se definieron los intervalos según la proporción de estudiantes aprobados en ellos para determinar la clasificación de los ítems en correspondencia con la dificultad real presentada en el examen aplicado.

Escala de clasificación de la dificultad esperada en los ítems, se considera por la literatura⁹ alrededor de:

5 % para ítems fáciles.
20 % para ítems medianamente fáciles.
50 % para ítems de dificultad media.
20 % para ítems medianamente difíciles.
5 % para ítems difíciles.

Se realizó la distribución de los ítems del examen según el índice de dificultad esperado y observado con su respectivo porciento.

La discriminación de los ítems del examen se calculó a través del coeficiente de correlación del punto biserial (r_pbis).

El r_pbis permite determinar la efectividad discriminativa de un reactivo y comprobar si los estudiantes "adecuados" son los que obtienen las respuestas correctas, qué tanto poder predictivo tiene el reactivo, y cómo puede contribuir a las predicciones.^8,9

Se utilizó la siguiente fórmula:

Según estándares internacionales la distribución de los resultados del coeficiente de discriminación punto de correlación biserial (r_pbis) es:⁷

< 0 discriminan negativamente;
0 - 0.14 discriminan pobremente;
0.15 - 0.25 discriminan regular;
0.26 - 0.35 buen poder discriminativo;
> 0.35 excelente poder de discriminación.

El SPSS (Statistical Package for the Social Sciences) versión 15.0 para Windows fue utilizado para la determinación del coeficiente de correlación bivariada de Spearman y su significación estadística (p≤0,05).

RESULTADOS Y DISCUSIÓN

El examen final estuvo compuesto por cinco preguntas con un total de 32 ítems, con predominio de los ítems de ensayo en su variante de respuestas cortas. Exploró contenidos esenciales de todos los temas del programa de la asignatura que incluye Estadística Descriptiva, Estadística Sanitaria, Introducción a la Inferencia Estadística y Metodología de la Investigación.

Los informantes clave consideraron que es común en esta asignatura la elaboración de exámenes con preguntas de tipo ensayo, criterio compartido por los autores.

Los resultados obtenidos al analizar la correspondencia del tiempo dedicado según el plan calendario (P₁) de la asignatura a cada tema y la cantidad de ítems que exploraron estos contenidos en el examen, como se muestra en la tabla 1, el programa de la asignatura tiene un fondo de tiempo de 60 horas distribuidas en cuatro temas; tres de ellos con 16 horas clases, cada uno que representa 26,7 % respectivamente; por otra parte, de los 32 ítems explorados en el examen, 13 que representan 40,6 % corresponden al tema Inferencia Estadística y solo 3 (9,4 %) a Metodología de la Investigación.

Llama la atención la marcada diferencia entre la cantidad de ítems explorados en estos temas cuando ambos presentan el mismo tiempo en el plan calendario, evidencia de que no existió correspondencia entre la cantidad de ítems explorados en los diferentes temas y el tiempo dedicado a cada uno en el plan calendario.

Para determinar si existe correlación o no entre el fondo de tiempo y la presencia de ítems en el examen, se utilizó el coeficiente de correlación de Spearman y se obtuvo r = 0,25 (p<0,05), no significativa, reflejo de una débil relación entre ambas variables. Al considerar que debe existir una estrecha relación entre los objetivos que se imparten y los que se evalúan, dado por los contenidos explorados en el examen, se muestra que en el instrumento de evaluación aplicado no se cumplió proporcionalmente.

Estos resultados se contradicen con los obtenidos por Santiesteban Leyva¹⁰ y Abreu Reyes¹¹ al comprobar que en su estudio existió correspondencia entre fondo de tiempo dedicado a cada temática y el número de incisos evaluados en el examen en cada una.

Los autores del presente trabajo comparten el criterio de los informantes clave, de que Metodología de la Investigación es de los temas más difíciles y su sistema de evaluación incluye un seminario (único en el programa) razones que pudieron haber incidido en su menor representatividad en el examen, y asumen que puede ser más explorado si se confeccionan preguntas de tipo test objetivo que permitan evaluar mayor cantidad de contenido.

El índice de dificultad es la proporción de personas que responden correctamente un reactivo de una prueba. Mientras mayor sea esta proporción, menor será su dificultad. Se trata de una relación inversa: a mayor dificultad del ítem, menor será su índice de dificultad.⁹

Los resultados de la entrevista a los informantes clave permitieron clasificar el índice de dificultad real de los ítems del examen, se determinó que aquellos con una proporción de aprobados: menor de 0,40 se consideraran como difíciles; entre 0,40 y 0,50 medianamente difíciles; entre 0,51 y 0,80 de dificultad media; entre 0,81 y 0,90 medianamente fáciles; entre 0,91 y 1,0 fáciles.

En la figura se observan los resultados obtenidos al agrupar los ítems del examen de acuerdo a su índice de dificultad. De los 32 ítems explorados, 16 (50 %) clasifican de dificultad media con valores de 0,51 a 0,80, mientras 2 (6 %) clasifican como medianamente difíciles y 2 (6 %) como difíciles con valores de 0,40 a 0,50 y valores menores de 0,40 respectivamente.

Los ítems de dificultad media se encuentran distribuidos en los cuatro temas de la asignatura, a diferencia de los dos que clasifican medianamente difíciles y los dos difíciles que corresponden al tema Inferencia Estadística.

En la distribución de los ítems esperados y observados según su grado de dificultad de acuerdo a la escala establecida por el criterio de expertos, como refleja la tabla 2, se evidenció un comportamiento diferente en el porcentaje de los ítems fáciles entre el valor esperado (6 %) y el real (19 %), y en los medianamente difíciles, de un valor esperado de 19 % disminuyó considerablemente el real (13 %).

Los ítems fáciles y difíciles (niveles extremos de dificultad) alcanzan el 25 % de los explorados, resultados que difieren de lo planteado por Backhoff y col⁹ como valor esperado teóricamente en un examen, cercano al 10 % y del obtenido en los reactivos del EXHCOBA de solo 12 %. El resto de los niveles de dificultad se comportaron de modo similar en cuanto al valor esperado y observado.

La dificultad media del examen alcanzó valores similares al esperado del 50 %, existieron ítems con diferentes grados de dificultad, resultados que difieren de los obtenidos por Abreu Reyes¹¹ al plantear que en su estudio no se encontraron incisos difíciles ni medianamente difíciles.

A consideración de los autores no se realizó la planificación del examen con la profundidad requerida y esto pudo ser la causa de la diferencia de los valores porcentuales esperados y observados de los incisos fáciles y medianamente difíciles.

Los resultados obtenidos al determinar la discriminación de los ítems del examen en estudio, a través del coeficiente de correlación del punto biserial (r_pbis), muestran que de los 32 ítems explorados, discriminaron de forma excelente 62,5 % (20) de ellos, con valores mayores que 0,35 y solo 3,1 % (uno de ellos) discriminó pobremente, con valores entre 0 y 0,14, según se puede observar en la tabla 3.

Los tres ítems que discriminaron regular (9,4 %) y el que presenta un poder discriminativo pobre (3,1 %) coincidieron en ser clasificados como fáciles según su índice de dificultad, corresponden al tema Estadística Descriptiva, fueron elaborados de tipo completamiento, con poca profundidad y sus resultados no permitieron predecir que los estudiantes que obtuvieron altas puntuaciones en el examen deben haber obtenido altas calificaciones en los ítems.

Según algunos autores, para rangos similares de discriminación la conducta a seguir es revisarlos con profundidad o descartarlos definitivamente, y consideran que un buen ítem debe discriminar entre aquellos que obtuvieron buenas calificaciones en la prueba y aquellos que obtuvieron bajas calificaciones.^{6, 9,12.}

Es criterio de los investigadores que los ítems fáciles que no discriminaron adecuadamente, deben ser revisados con cautela para lograr reelaborarlos con mayor complejidad, para que permitan predecir que el estudiante que salió bien en el examen obtuvo buenos resultados en el ítem.

Estos resultados evidencian dificultades en la planificación y elaboración de instrumentos evaluativos, que exploren con la profundidad requerida la mayor cantidad de objetivos posibles de la asignatura. Es necesario trabajar la línea de la evaluación del aprendizaje en las actividades metodológicas del Departamento de Informática Médica y profundizar en el rediseño de los instrumentos de evaluación, que favorecen la eficiencia del proceso docente educativo.

CONCLUSIONES

La evaluación de los indicadores aplicados muestra que hubo predominio de los ítems de dificultad media y de excelente poder discriminativo y la cantidad de ítems fáciles superó el porciento esperado. Los ítems que no discriminaron de forma adecuada coincidieron en ser clasificados como fáciles según su índice de dificultad, elaborados de tipo completamiento, con dificultades en su confección y nivel de asimilación reproductivo.

REFERENCIAS BIBLIOGRÁFICAS

1. Horruitiner Silva P. La universidad cubana: el modelo de formación. La Habana: Editorial Félix Varela; 2008.

2. Ministerio de Educación Superior. Reglamento de Trabajo Docente y Metodológico. Resolución 210/07. La Habana: MES; 2007.

3. Landaluce Gutiérrez O. Pedagogía. La Habana: Editorial Ciencias Médicas; 2011.

4. González García N, Garriga Sarría E, Rubén Quesada M, O'Farrill Mons E. Programa de la Asignatura Metodología de la Investigación y Estadística. La Habana: Comisión Nacional de Carrera de Medicina; 2010.

5. Salas Perea RS. La evaluación en la educación superior contemporánea. Maestría en Educación Médica. [CD-ROM]. ENSAP; 2005.

6. Carrazana Lee A, Salas Perea RS, Ruiz Salvador AK. Nivel de dificultad y poder de discriminación del examen diagnóstico de la asignatura Morfofisiología Humana I. Educ Med Super [Internet]. 2011 [citado 22 Abr 2011];25(1):[aprox. 12 p.]. Disponible en: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-21412011000100010&lng=es&nrm=iso&tlng=es

7. Argudín Samonte E, Díaz Rojas P, Leyva Sánchez E. Índice de Dificultad del examen de Morfofisiología Humana I. Educ Med Super [Internet]. 2011 [citado 2 Oct de 2011];25(2):[aprox. 8 p.]. Disponible en: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-21412011000200007&lng=es&nrm=iso&tlng=es

8. Díaz Rojas PA, Leyva Sánchez E. Metodología para determinar la calidad de los instrumentos de evaluación. Educ Med Super [Internet]. 2013 [citado 10 Jun 2013];27(2):[aprox. 18 p.]. Disponible en: http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-21412013000200014&lng=es&nrm=iso&tlng=es

9. Backhoff E, Larrazolo N, Rosas M. Nivel de dificultad y poder de discriminación del Examen de Habilidades y Conocimientos Básicos (EXHCOBA). REDIE [Internet]. 2000 [citado 2 Oct 2011];2(1):[aprox. 14 p.]. Disponible en: http://redie.uabc.mx/index.php/redie/article/view/15

10. Santiesteban Leyva E. Propuesta de metodología para el análisis de los resultados de los exámenes finales de las asignaturas de la disciplina Morfofisiología Humana del Programa Nacional de Formación de Medicina Integral Comunitaria en la República Bolivariana de Venezuela. [Tesis]. La Habana: ENSAP; 2007.

11. Abreu Reyes D. Caracterización del examen teórico final de Morfofisiología Humana del perfil Laboratorio Clínico. Educ Med Super [Internet]. 2011 [consultado 6 Feb 2013];25(1):[aprox. 13 p.]. Disponible en: http://www.scielo.sld.cu/scielo.php?script=sci_arttext&pid=S0864-21412011000100003&lng=es&nrm=iso&tlng=es

12. Sánchez González MG. Descripción del nivel de facilidad y poder de discriminación del examen de inferencia estadística en métodos estadísticos en Medicina Veterinaria y Zootecnia. Facultad de Medicina Veterinaria y Zootecnia. Jornada de Educación Médica. México. [Internet]. 2010 [citado 2 Ene 2013]:[aprox. 9 p.]. Disponible en: http://www.facmed.unam.mx/sem/jem2010/Abstracts/trabajos_orales.pdf

Recibido: 30 de junio de 2014
Aprobado: 14 de diciembre de 2014

Gemma Margarita Ortiz Romero. Universidad de Ciencias Médicas de Holguín. Cuba. Correo electrónico: gemma@ucm.hlg.sld.cu

Copyright (c)