Calculadoras de potencia (tamaño de muestra) Calcule cuán grande debe ser su ensayo clínico con nuestras calculadoras en línea fáciles de usar Hay varias calculadoras de tamaño de muestra diferentes - elija la correcta de acuerdo al tipo de ensayo clínico que está planeando (superioridad / equivalencia / no - inferioridad) y la naturaleza de la variable de resultado primaria (binario / continuo). Un ensayo de superioridad es aquel en el que desea demostrar que un tratamiento o intervención es mejor que otro (o mejor que ningún tratamiento / intervención). Un ensayo de equivalencia es donde se quiere demostrar que un nuevo tratamiento no es mejor o peor que un tratamiento existente y la no inferioridad es mostrar que un nuevo tratamiento no es peor que un tratamiento existente. Estas calculadoras se basan en aproximaciones a la distribución Normal y pueden no ser adecuadas para tamaños de muestra pequeños. Estas calculadoras han sido probadas para su exactitud en comparación con los documentos publicados. Esta calculadora no funcionará correctamente sin JavaScript. Ensayo de no inferioridad de resultado binario Un resultado binario tiene dos categorías, como muertos / vivos, hospitalización - sí / no, éxito / fracaso terapéutico y así sucesivamente. Esta calculadora está diseñada para resultados binarios en ensayos de no inferioridad de grupos paralelos. El porcentaje de pacientes que cumplen la definición de resultado primario (por ejemplo, el porcentaje sobrevivido) se compara entre dos grupos aleatorios. La hipótesis nula es que el porcentaje para los que están en el tratamiento estándar es mejor que el porcentaje para los que están en el tratamiento experimental en una cantidad d. Al rechazar H 0. Aceptamos la hipótesis alternativa de que el porcentaje para los que reciben el nuevo tratamiento es pi s menos d o mejor: en otras palabras, que el tratamiento experimental es mejor que el tratamiento estándar o sólo ligeramente peor (no más de d). Por lo general llamamos al tratamiento nuevo en esta situación no inferior. Debe definir el límite de no inferioridad (d) de modo que una diferencia mayor que esto importaría en la práctica. Usted debe asumir normalmente que el porcentaje de éxito en ambos grupos de tratamiento estándar y experimentales es el mismo, a menos que tenga una buena razón para creer que un tratamiento es de hecho superior a la other. OANDA 1080108910871086108311001079109110771090 10921072108110831099 galleta, 10951090108610731099 1089107610771083107210901100 1085107210961080 10891072108110901099 10871088108610891090109910841080 1074 1080108910871086108311001079108610741072108510801080 1080 108510721089109010881086108010901100 10801093 10891086107510831072108910851086 108710861090108810771073108510861089109011031084 10851072109610801093 10871086108910771090108010901077108310771081. 10601072108110831099 galleta 10851077 10841086107510911090 1073109910901100 108010891087108610831100107910861074107210851099 107610831103 109110891090107210851086107410831077108510801103 10741072109610771081 10831080109510851086108910901080. 1055108610891077109710721103 108510721096 1089107210811090, 10741099 108910861075108310721096107210771090107710891100 1089 10801089108710861083110010791086107410721085108010771084 OANDA8217 109210721081108310861074 galleta 1074 108910861086109010741077109010891090107410801080 1089 10851072109610771081 105510861083108010901080108210861081 108210861085109210801076107710851094108010721083110010851086108910901080. 1048108510891090108810911082109410801080 10871086 107310831086108210801088108610741072108510801102 1080 10911076107210831077108510801102 109210721081108310861074 galleta, 1072 10901072108210781077 1091108710881072107410831077108510801102 108010841080 108710881080107410771076107710851099 10851072 10891072108110901077 aboutcookies. org. 1042 108910831091109510721077 10861075108810721085108010951077108510801103 1080108910871086108311001079108610741072108510801103 109210721081108310861074 galletas 108610871088107710761077108310771085108510991077 1092109110851082109410801080 108510721096107710751086 10891072108110901072 10731091107610911090 1085107710761086108910901091108710851099. 104710721075108810911079108010901100 108410861073108010831100108510991077 1087108810801083108610781077108510801103 1042109310861076 1042109910731088107210901100 1089109510771090: ampltiframe src4489469.fls. doubleclick. net/activityisrc4489469typenewsi0catoanda0u1fxtradeiddclatdcrdidtagforchilddirectedtreatmentord1num1 mcesrc4489469.fls. doubleclick. net/activityisrc4489469typenewsi0catoanda0u1fxtradeiddclatdcrdidtagforchilddirectedtreatmentord1num1 Width1 talla1 frameborder0 styledisplay: ninguno mcestyledisplay: noneampgtamplt / iframeampgt 10501072108311001082109110831103109010861088 10841072108810781080 10501072108311001082109110831103109010861088 107610861089109010911087108510861081 10841072108810781080 105010721082 108710861083110010791086107410721090110010891103 1101109010801084 108010851089109010881091108410771085109010861084 10421099107310771088108010901077 107410721083110210901091 108610891085108610741085108610751086 10891095107710901072. (10521072108810781072 10731091107610771090 1088107210891089109510801090107210851072 1074 1101109010861081 107410721083110210901077.) 10421099107310771088108010901077 107610831103 1087108610791080109410801080 10741072108311021090108510911102 1087107210881091 10801079 108910871080108910821072. (10471072109010771084 10871086110310741080109010891103 10791085107210951077108510801077 108610731084107710851085108610751086 10821091108810891072.) 10421099107310771088108010901077 10821086110110921092108010941080107710851090 10841072108810781080, 10791072107610721085108510991081 107610831103 107410721096107710751086 10891095107710901072. 1055108810801084107710951072108510801077. 105210721082108910801084107210831100108510991081 10821086110110921092108010941080107710851090 10841072108810781080 107610831103 10821072108210861081-1083108010731086 10741072108311021090108510861081 1087107210881099 10841086107810851086 107910721076107210901100 1085108010781077 1091108210721079107210851085108610751086 1074 1085107210891090108810861081108210721093 107410721096107710751086 10891095107710901072. (105410791085107210821086108410801090110010891103 1089 108710861083108010901080108210861081 OANDA 10871086 10841072108810781077.) 1042107410771076108010901077 1082108610831080109510771089109010741086 107710761080108510801094 10871086 1087108610791080109410801080. 1053107210781084108010901077 108210851086108710821091 1056107210891089109510801090107210901100. 105810881077107310911077108410721103 10841072108810781072 10871086108210721079107210851072 1074 1087108610831077 104810891087108610831100107910911077108410721103 10841072108810781072. 105610721089108910951080109010721074 10841072108810781091, 10841086107810851086 10801079108410771085108010901100 1082108610831080109510771089109010741086 108010831080 10831077107410771088108010761078, 1080 10901086107510761072 1072107410901086108410721090108010951077108910821080 1087108810861080107910861081107610771090 10871077108810771089109510771090 10841072108810781080. (10651077108310821085108010901077 1074 107610881091107510861084 1087108610831077, 1077108910831080 10871077108810771089109510771090 10891088107210791091 10851077 107310991083 1087108810861080107910741077107610771085.) 105010721082 10881072107310861090107210771090 1101109010861090 1080108510891090108810911084107710851090 105610721089109510771090 108710881086108010791074108610761080109010891103 10871086 108910831077107610911102109710771081 1092108610881084109110831077: 10861089108510861074108510721103 107410721083110210901072 USD 10741072108311021090108510721103 1087107210881072 GBP / CHF GBP 1073107210791072 108210861090108010881086107410821072 CHF 1073107210791086107410721103 107410721083110210901072/10861089108510861074108510721103 107410721083110210901072 GBP / USD 1,5819 1082108610831080109510771089109010741086 107710761080108510801094 1000 10821086110110921092108010941080107710851090 10841072108810781080 20: 1 104810891087108610831100107910911077108410721103 10841072108810781072: (1,5819 1000) / 20 79.095 USD 105010861084108010891089108010771081 10871086 10901086108810751086107410831077 109010861074107210881085109910841080 1092110011021095107710881089107210841080 (CFTC) 10911089109010721085108610741083107710851099 108910831077107610911102109710801077 10861075108810721085108010951077108510801103 1088107210791084107710881072 10791072107710841085108610751086 10821072108710801090107210831072, 1082108610901086108810991084 10841086107510911090 108710861083110010791086107410721090110010891103 10901088107710811076107710881099-1092108010791080109510771089108210801077 1083108010941072 10851072 10881099108510821077 106010861088107710821089 1074 105710641040: 50160: 1601 10871086 10861089108510861074108510991084 10741072108311021090108510991084 10871072108810721084 1080 20: 1 10871086 107610881091107510801084 10871072108810721084 10741072108311021090. OANDA Asia y el Pacífico 1087108810771076108310721075107210771090 108410721082108910801084107210831100108510861077 108210881077107610801090108510861077 10871083107710951086 50160: 1601 10871086 108710881086107610911082109010721084 106010861088107710821089. 10551086 108610871077108810721094108011031084 1089 10821086108510901088107210821090107210841080 10851072 1088107210791085108010941091 10871088108010841077108511031102109010891103 10861075108810721085108010951077108510801103 1082108810771076108010901085108610751086 10871083107710951072. 105210721082108910801084107210831100108510991081 108810721079108410771088 1082108810771076108010901085108610751086 10871083107710951072 107610831103 10821083108010771085109010861074 OANDA Canadá 109110891090107210851072107410831080107410721077109010891103 105410881075107210851080107910721094108010771081 10871086 1088107710751091108310801088108610741072108510801102 10801085107410771089109010801094108010861085108510861081 107610771103109010771083110010851086108910901080 105010721085107210761099 (IIROC) 1080 10841086107810771090 1080107910841077108511031090110010891103. 105510861076108810861073108510721103 1080108510921086108810841072109410801103 1087108810801074108610761080109010891103 1074 1088107210791076107710831077 1711042109910871086108310851077108510801077 108810771075109110831103109010861088108510991093 1080 1092108010851072108510891086107410991093 1090108810771073108610741072108510801081187. 1042 107610721085108510861081 10871088107710791077108510901072109410801080 108710881077107610861089109010721074108311031077109010891103 109010861083110010821086 10861073109710721103 1080108510921086108810841072109410801103. 1055108810801084107710881099 1087108810801074108610761103109010891103 1080108910821083110210951080109010771083110010851086 1074 10801083108311021089109010881072109010801074108510991093 10941077108311031093 1080 10841086107510911090 10851077 10861090108810721078107210901100 1090107710821091109710801077 1094107710851099 OANDA. 105410851080 10851077 11031074108311031102109010891103 10801085107410771089109010801094108010861085108510861081 1088107710821086108410771085107610721094108010771081 108010831080 10871086107310911078107610771085108010771084 1082 1089108610741077108810961077108510801102 108910761077108310821080. 1056107710791091108311001090107210901099, 10761086108910901080107510851091109010991077 1074 1087108810861096108310861084, 1085107710861073110310791072109010771083110010851086 109110821072107910991074107211021090 10851072 1088107710791091108311001090107210901099 1074 1073109110761091109710771084.Through del espejo: la comprensión de la no inferioridad ensayos de no inferioridad Resumen probar si un nuevo producto no es inaceptablemente peor que un producto ya en uso. Este artículo presenta conceptos relacionados con la no-inferioridad, y discute las opiniones regulatorias tanto de la Agencia Europea de Medicamentos como de la Administración de Alimentos y Medicamentos de los Estados Unidos. Introducción Bien, en nuestro país, dijo Alice, todavía jadeando un poquito, tendrías que ir a otro lugar, si corrías muy rápido durante mucho tiempo como lo hemos estado haciendo. Un tipo de país lento decía la Reina. Ahora, aquí, ya ves, se necesita todo el correr que se puede hacer, para mantener en el mismo lugar. Si quieres ir a otro sitio, debes correr al menos dos veces más rápido que Lewis Carroll, a través del espejo. Las estadísticas clásicas no son lo suficientemente intuitivas cuando intentas demostrar que una nueva intervención es mejor que una anterior. Usted no puede probar lo que quiere probar todo lo que puede decir es que los datos que observa proporcionan evidencia suficiente para rechazar la hipótesis de que las dos intervenciones tienen el mismo efecto. Entonces, cuando se intenta estimar la magnitud del efecto, todo lo que se puede decir es que si se repite el experimento un número infinito de veces y se calcula su intervalo de confianza (IC) como se les enseñó, 95 de esos intervalos cubriría la verdad efecto. (No es de extrañar que la gente huya a la inferencia bayesiana) Pero tan difícil y contraintuitivo como las estadísticas clásicas pueden ser, son simples en comparación con los problemas de inferencia en los ensayos de no inferioridad. Al diseñar un ensayo para demostrar la superioridad de una nueva intervención, se especifica una hipótesis nula coherente con la palabra nula, su hipótesis afirma que las dos intervenciones son las mismas. A continuación, elija una hipótesis alternativa que indique que la diferencia entre los medios, o alguna otra estadística, es. En todo este documento, suponemos que los resultados positivos más grandes son mejores que los resultados positivos más pequeños, y una diferencia de tratamiento positiva, proporciona evidencia de beneficio. Para situaciones en las que un resultado menor es mejor que un resultado mayor (por ejemplo, el tamaño del tumor en las aplicaciones de cáncer) los signos en este documento cambiaría de negativo a positivo. Utiliza la tasa de error de tipo I elegida o la potencia deseada y selecciona el tamaño de la muestra. El objetivo de su experimento es rechazar esa hipótesis nula, por lo que es en cierto sentido una herramienta para ayudarle a seleccionar el tamaño de la muestra. Al final del ensayo, el efecto estimado puede ser mayor o menor que, pero mientras el límite inferior de su IC 95 sea superior a cero, puede rechazar su hipótesis nula. El preseleccionado no juega ningún papel estadístico formal en el análisis de un ensayo de superioridad, aunque la diferencia de magnitud entre el efecto hipotético y el estimado influirá probablemente en la interpretación de los resultados. Un experimento de no inferioridad, por el contrario, trata de demostrar que la nueva intervención no es inferior a la anterior o, más precisamente, que la nueva intervención no es inaceptablemente peor que la intervención utilizada como control. Así, la hipótesis nula parece retroceder, en cierto sentido, ya que esta hipótesis no es nula en absoluto. En cambio, afirma que el nuevo tratamiento es peor que el antiguo por más de -, donde - es el margen de no inferioridad. La hipótesis alternativa establece que la diferencia en el efecto entre las intervenciones nuevas y antiguas es menor que - (Figura 1). En el mundo invertido de la no inferioridad, la hipótesis alternativa parece nula, mientras que la hipótesis nula incluye una diferencia de tratamiento especificada de -. Aquí, - es una parte integral no sólo del diseño, como en los ensayos de superioridad, sino también del análisis, un papel que no juega en los ensayos de superioridad. El papel de los ensayos de superioridad, equivalencia y no inferioridad. Invertir las hipótesis nulas y alternativas puede ser el primer problema de cristal de no inferioridad, pero a medida que los pares más profundo, el atraso parece multiplicar los ensayos para demostrar la superioridad generalmente penalizar al descuidado investigador (aunque no siempre el manejo inadecuado de los datos que faltan puede beneficiarse Un tratamiento más tóxico, menos eficaz, potencialmente aumentando la posibilidad de un hallazgo falso en un juicio de superioridad). Por el contrario, los juicios de no inferioridad tienden a recompensar a los descuidados. Cuanto menos rigurosamente se lleva a cabo el juicio, más fácil puede ser mostrar la no inferioridad. A medida que los tratamientos mejoran, mostrar el beneficio de una nueva terapia se vuelve más y más difícil, pero mostrando no inferioridad se vuelve cada vez más fácil, debido a la falta de constancia (deliciosamente denominado biocreep en drogas y technocreep en los dispositivos). Sin embargo, los ensayos de no inferioridad también se enfrentan a la cuestión de la sensibilidad del ensayo, la realidad de que, en algunos entornos de la enfermedad, incluso los fármacos verdaderamente eficaces no siempre muestran beneficios en un ensayo clínico. Esto significa que un ensayo de no inferioridad en un entorno en el que el fármaco estándar no hubiera demostrado ser superior al placebo probablemente demostraría no inferioridad del nuevo tratamiento (ver 1. 2 para discusiones adicionales sobre la sensibilidad del ensayo y otras cuestiones Relacionados con ensayos controlados activos). Por todas estas razones y probablemente por varias más, muchos investigadores que se enfrentan al desafío de diseñar e interpretar ensayos de no inferioridad suelen desesperarse al intentar comprenderlos. En este comentario, explicamos lo que un ensayo de no inferioridad intenta mostrar que ampliamos algunos de los problemas discutidos anteriormente, distinguimos la opinión reguladora de la Administración de Alimentos y Medicamentos de los Estados Unidos (FDA) de la Agencia Europea de Medicamentos (EMA) y, Quizás, lo más importante, discutimos porqué tales ensayos son a menudo deseables realizar. Superioridad, equivalencia y no inferioridad Los investigadores comprenden intuitivamente, incluso antes de aplicar el rigor estadístico, cómo llevar a cabo un ensayo para establecer la superioridad de un tratamiento novedoso. Cuando se compara una nueva terapia con un control placebo o, si existe, con un control activo, el investigador define un resultado (como el nivel de dolor o la supervivencia global) y declara que el nuevo tratamiento es superior si al final del ensayo , El valor estimado del resultado en el grupo tratado es mejor que la estimación en el grupo control. Estadísticamente hablando, mejor significa que los datos permiten rechazar la hipótesis nula de que las dos distribuciones son iguales, a favor de la hipótesis de que el nuevo tratamiento es mejor que el control. A veces, el objetivo no es mostrar que el nuevo tratamiento es mejor, sino que el nuevo tratamiento es equivalente al control. Debido a que sólo con un tamaño de muestra infinito sería posible mostrar equivalencia exacta, los investigadores en su lugar seleccionar un margen. Una vez más, llámalo. Al final del ensayo, se calcula un IC alrededor de la diferencia entre dos estadısticas de prueba (los ensayos de equivalencia usan tıpicamente 90 IC) y si el CI está estrictamente dentro -, los dos tratamientos se llaman equivalentes. Tales ensayos se usan para demostrar que un fármaco genérico es biológicamente el mismo que el fármaco que está tratando de imitar. También se utilizan para demostrar la consistencia del lote en los ensayos de la vacuna, en los cuales el resultado es una medida de la respuesta inmune. La no inferioridad es diferente de la equivalencia. En un ensayo de equivalencia, la conclusión deseada es que dos productos son iguales o no inaceptablemente diferentes entre sí. En un ensayo de no inferioridad, por el contrario, el objetivo es mostrar que un nuevo producto no es inaceptablemente peor que uno anterior. ¿Por qué podría ser razonable buscar un producto que sea posiblemente menos eficaz que un tratamiento existente? Un nuevo tratamiento que no sea mucho peor o no inferior al tratamiento estándar puede ser atractivo si, comparado con el tratamiento estándar, Se espera que cause menos efectos secundarios, o conduzca a la mejora de la calidad de vida, o si su régimen de dosificación es más fácil de tolerar. Supongamos que es posible definir lo que significa significativamente peor (piense en esto como una ventana de indistinguibilidad, o un margen que llamaremos - a continuación discutimos cómo elegir este margen), y que existe un tratamiento existente disponible contra el cual Comparar el nuevo tratamiento. El nuevo tratamiento podría decirse que no es inaceptablemente peor que 3 (es decir, no inferior a) el tratamiento existente si, cuando se calcula la IC alrededor de la diferencia en el tamaño del efecto entre los tratamientos nuevo y existente, el límite inferior de Ese intervalo no se extiende más allá de la ventana de indistinguibilidad definida anteriormente. Uno se centra en el límite inferior de esta comparación de no inferioridad lo que sucede en el extremo superior de la IC no es la preocupación principal. En un ensayo de equivalencia, por el contrario, los investigadores se preocupan por ambos extremos de la CI, y declarar el nuevo tratamiento equivalente al tratamiento existente sólo si la CI completa cae dentro de este margen en cualquier lado de cero. Los ensayos de no inferioridad son claramente apropiados para algunas enfermedades y algunos tratamientos. Cuando se desarrolla un nuevo tratamiento para prevenir la tuberculosis, los investigadores podrían estar dispuestos a sacrificar una pequeña cantidad de beneficio (como se refleja en el margen) para un programa de dosificación más simple, menos efectos secundarios u otras ventajas, pero estarían encantados si el nuevo tratamiento Eran mejores que las terapias actuales (por lo tanto ninguna restricción en el límite superior del intervalo) y también podrían declarar la superioridad. Esto sólo ocurriría si el límite inferior del intervalo estuviera por encima de cero, no simplemente por encima de -. Hasta ahora, el problema suena sencillo. Se necesita seleccionar un margen de no inferioridad, ejecutar el ensayo comparando el tratamiento experimental con un control activo, calcular el IC alrededor de la diferencia entre los tratamientos y examinar el límite inferior del CI. Si el límite inferior está por encima del margen -, el nuevo tratamiento se considera no inferior y el ensayo es un éxito. Además, si el nuevo tratamiento es estadísticamente significativamente mejor que el comparador (es decir, el límite inferior de ese mismo IC es también superior a cero), también puede declararse la superioridad del nuevo tratamiento. Es importante destacar que la primera prueba de no inferioridad y luego de superioridad no requiere una penalización estadística para las pruebas múltiples, ya que la primera prueba de no inferioridad antes de la prueba de superioridad (mientras se examina un solo CI) utiliza un procedimiento de prueba que controla adecuadamente el tipo general I, o, la tasa de error de las dos pruebas. Los estadísticos se refieren a este tipo de pruebas como pruebas cerradas, y tal proceso asegura que la tasa de error en el experimento general se mantiene al nivel correcto al probar más de una hipótesis. El orden de la prueba es importante para declarar la superioridad, un nuevo tratamiento necesariamente también tiene que ser declarado no inferior. Lo contrario (probar primero por superioridad y luego por no inferioridad) no siempre es un procedimiento cerrado. Las pruebas en ese orden podrían conducir a resultados aparentemente anómalos, incluso al examinar un solo CI. Una prueba grande con un CI estrecho alrededor de la diferencia entre el control activo y el nuevo tratamiento podría mostrar que el límite inferior del intervalo está dentro del margen, lo que significa que el nuevo tratamiento es no inferior al control activo, pero el límite superior Del intervalo es inferior a cero, por lo que el nuevo tratamiento es también inferior al control activo. Tenga en cuenta que lo contrario de no inferior no es inferior es el espejo opuesto, no no inferior. Por ejemplo, supongamos que el margen - es -3, y el IC 95 observado al final del ensayo es -2.7, 1.5. El límite inferior de la CI es superior a -3, por lo que el nuevo fármaco no es inferior al anterior, pero el límite superior de -1,5 es menor que cero, por lo que el nuevo fármaco es también inferior al anterior. En este caso, el IC simple puede utilizarse para decir que el nuevo tratamiento es simultáneamente no inferior e inferior. Aunque este ejemplo puede parecer contraintuitivo, al interpretar los resultados de un ensayo de no inferioridad, debe recordarse que el propósito del ensayo es estimar el límite inferior del IC, no establecer una estimación puntual del efecto del tratamiento. Esta prueba, sentada al otro lado del espejo, requiere una interpretación distinta a la habitual. En algunos ensayos, es estadísticamente apropiado realizar primero una comparación de superioridad y, si no muestra beneficio estadístico, realizar una comparación de no inferioridad. Esto sería apropiado sólo cuando se hubiera preseleccionado el margen de no inferioridad. La razón por la que tal cambio es admisible se deriva del hecho de que podemos ver la prueba como una interpretación de un IC. El CI calculado no sabe si su propósito es juzgar superioridad o no inferioridad. Si se sienta totalmente por encima de cero, entonces ha demostrado superioridad. Si se sienta completamente arriba -, entonces ha demostrado no-inferioridad. Un ensayo de no inferioridad puede tener cinco posibles tipos de resultados como se muestra en la Figura 2. Las dos líneas verticales indican cero y -. Cada línea horizontal representa un CI, con el efecto de tratamiento estimado indicado por el punto en el centro. El IC en la parte superior de la figura se sitúa totalmente por encima de cero un ensayo con este resultado concluiría que el nuevo tratamiento es superior y por lo tanto, también no inferior, al control. El siguiente intervalo, que se extiende a cero, pero está totalmente por encima -, representa un ensayo que ha demostrado no inferioridad, pero no superioridad. El tercer intervalo, que se extiende tanto a cero como a -, representa un ensayo que no ha demostrado ni inferioridad ni superioridad. La cuarta IC ilustra el caso discutido arriba entre las dos líneas verticales, muestra tanto la no inferioridad (porque está completamente por encima de la línea para -) como la inferioridad (porque también está enteramente debajo de cero). El CI final en la parte inferior de la figura muestra inferioridad y no muestra no inferioridad. Posibles resultados de un ensayo de no inferioridad. Complicaciones - aparte del margen Entre los desafíos en los ensayos de no inferioridad comparados con los ensayos de superioridad están las opciones del margen, la población primaria para el análisis y el tratamiento comparador. Como en nuestra sección anterior, retrasamos la discusión del margen y abordamos los problemas anteriores. La sabiduría convencional sugiere que en un ensayo de no inferioridad, la población primaria para el análisis debe ser la población por protocolo (PP), que en este caso es el conjunto de personas que han tomado el tratamiento asignado y se han adherido a él. (Recuerde que los ensayos de superioridad usan la población total o de intención de tratar (ITT, por sus siglas en inglés) para el análisis primario.) Muchos apelan a la población de PP en un juicio de no inferioridad porque cuanto más mal ejecuta un ensayo, El análisis ITT mostrará no inferioridad. Considérese un ensayo con una aleatorización irremediablemente errónea, donde en lugar de crear dos grupos de tratamiento distintos (un conjunto de sujetos recibiendo el nuevo tratamiento y el otro el comparador activo), el esquema de asignación aleatoria realmente creó dos grupos mezclados, cada uno compuesto por medio sujetos recibiendo el Nuevo tratamiento y la mitad recibiendo el comparador activo. Si este ensayo estuviera probando la superioridad, la prueba, con alta probabilidad, no encontraría correctamente ninguna diferencia entre los grupos. Sin embargo, como un juicio de no inferioridad, un ensayo tan defectuoso sería muy probable que demostrara incorrectamente la no inferioridad. Este ensayo, tal como se describe, es un ejemplo extremo de la importancia de la sensibilidad al ensayo, ya que un ensayo con un esquema de asignación tan defectuoso ha perdido la capacidad de distinguir cualesquiera diferencias verdaderas entre los grupos de tratamiento que pueden existir y es un argumento de por qué la sabiduría convencional favorece Mostrando beneficio en la población PP. Otros 4 (incluidos los autores) no están de acuerdo con esa opinión. Apelar a los peligros de la despreocupación no es una razón para usar la población PP, sino más bien una razón para asegurar que un ensayo está bien diseñado y cuidadosamente monitoreado, con el análisis primario realizado sobre una población ITT. Desde el punto de vista regulatorio, sin embargo, ambas poblaciones son de interés. Los reguladores estadounidenses y europeos están interesados en el éxito tanto de la ITT como de las poblaciones de PP. La publicación EMA Puntos a considerar para cambiar entre superioridad y no inferioridad 5 establece específicamente que un ensayo de no inferioridad debe mostrar no inferioridad tanto en las poblaciones de ITT como de PP. Los reguladores de EE. UU. 6 citan preocupaciones significativas con la posibilidad de censura informativa en un análisis como el tratado o PP, y aconsejan a los investigadores planificar ambos tipos de análisis en sus ensayos de no inferioridad. Ellos continúan afirmando que las discrepancias entre los dos tipos de análisis requerirán un examen detenido, palabras que ningún investigador quiere escuchar de los reguladores. Un investigador también puede tener varias opciones para el brazo de comparación en un juicio de no inferioridad, pero debe ser una lucha justa. Un ejemplo de un control injusto sería un comparador con una dosis que es inferior a la óptima. Otro procede de biocreep. Supongamos que un ensayo anterior encontró que el fármaco A era claramente mejor que el placebo, luego varios años más tarde, el fármaco B se encuentra no inferior al fármaco A en un ensayo con un margen de no inferioridad grande. El fármaco C se compara entonces con el fármaco B, de nuevo con un gran margen de no inferioridad, y se muestra que no es inferior a B. Este es un ejemplo de biocreep en cada paso, se ha demostrado que el nuevo fármaco no es inaceptablemente peor que el anterior. Por lo tanto, una comparación de un nuevo fármaco con el fármaco C puede no ser justa, porque el fármaco C puede ser de hecho menos eficaz que el fármaco A y, si los márgenes fueran demasiado grandes, incluso menos eficaces que el placebo. Mencionamos de nuevo esta situación cuando hablamos de constancia. Debe disponerse de datos suficientes para permitir el cálculo del margen de no inferioridad para la misma enfermedad y el mismo punto final. La Guía 6 de la FDA permite, sin embargo, que el control activo no necesita ser aprobado para la indicación de interés en el ensayo de no inferioridad si estos datos existen. Elegir el margen, conceptualmente Habiendo acordado analizar la población de ITT y alguna versión de una población de PP, y habiendo seleccionado el control activo apropiado, un investigador siguiente debe seleccionar el margen de no inferioridad y el método de análisis. Un enfoque sería pedir a los clínicos o pacientes que consideren qué grado de eficacia estarían dispuestos a sacrificar a cambio de los beneficios potenciales que ofrece el nuevo tratamiento. Un panel de expertos clínicos con conocimiento de las opciones de tratamiento existentes y la enfermedad subyacente puede ser capaz de considerar los compromisos en el nivel de la población de pacientes, y podría proponer un margen plausible de no inferioridad. Los grupos de pacientes tal vez podrían proporcionar una mayor comprensión de las compensaciones que los pacientes potenciales podrían estar dispuestos a hacer para un producto con beneficios tales como un calendario de dosificación mejorado o menos efectos secundarios. Tal argumento, buscando orientación a partir del oráculo del juicio clínico o la experiencia del paciente, puede ser atractivo desde la perspectiva de algunos médicos, pero tal método Delphic puede tener éxito limitado en un entorno científico o regulador, lo que podría requerir la justificación de los efectos esperados del tratamiento Y la variabilidad. Dos enfoques más formales para el margen y el análisis son el placebo putativo (también conocido como método de síntesis) y el enfoque 95-95 en Rothmann 7. 8. El método 95-95 comienza calculando M 1. El efecto total del control activo con respecto al placebo. Este cálculo usualmente utiliza métodos meta-analíticos con datos de estudios previos, como describimos a continuación, para obtener un IC 95 alrededor de la diferencia estimada entre el control activo y el placebo. Una estimación conservadora de esta diferencia, el límite inferior de ese CI, se utiliza entonces como M 1. A continuación, un margen menor, M 2. Se especifica para preservar una fracción predeterminada del efecto de control activo estimado, por ejemplo 50 ó 75. Podemos interpretar M2 como la mayor pérdida de efecto (inferioridad) que sería clínicamente aceptable cuando se compara el fármaco de ensayo con el activo controlar. Estas definiciones de M 1 y M 2 vienen de la notación utilizada en el FDA Guidance document, que discutiremos en la siguiente sección. Habiendo establecido el margen M 2. Un ensayo de no inferioridad utilizando el enfoque de margen fijo es exitoso si el límite inferior del IC 95 alrededor de la diferencia entre el nuevo tratamiento y el control activo está por encima de ese margen. El método de síntesis, por el contrario, no requiere la especificación de un margen específico o efecto de control activo [6, 9]. Este enfoque especifica un umbral para la fracción deseada del efecto del control activo que es retenido por el nuevo tratamiento. Por lo tanto, la prueba de la hipótesis de no inferioridad en este tipo de análisis se basa en una combinación de la estimación y el error estándar (SE) para la comparación del control activo con placebo, que no se observa en el presente estudio, y la estimación Y SE para la comparación del nuevo tratamiento con el control activo en el presente estudio. Este método supone que el efecto del control activo permanece razonablemente constante en el tiempo, o que si el efecto disminuye con el tiempo (como resultado, por ejemplo, de terapias concomitantes mejoradas), se puede estimar un efecto modificado de este tipo. Véase Rothmann et al. 7 para obtener un enfoque unificado tanto del enfoque de margen fijo como del enfoque de síntesis, que aborda los supuestos de sensibilidad y constancia de los ensayos y su relación Implicaciones en la tasa de error Tipo I. Ampliamos estos conceptos a continuación en la sección sobre cuestiones técnicas. Perspectivas regulatorias En marzo de 2010, los Centros para la Evaluación e Investigación de Medicamentos (CDER) y la Evaluación e Investigación Biológica (CBER) de la FDA de los Estados Unidos publicaron un proyecto de Orientación para la Industria en ensayos de no inferioridad 6. Los documentos de orientación de la FDA representan el pensamiento actual de Agencys sobre una amplia variedad de temas en el proceso de desarrollo de fármacos, incluyendo cuestiones clínicas, estadísticas, fabricación, seguridad y etiquetado. Esta guía se abre con un resumen introductorio de los ensayos de no inferioridad. Proporciona a continuación una cuidadosa discusión de cuestiones estadísticas, incluyendo métodos para determinar un margen apropiado de no inferioridad, y cierra abordando preguntas a través de ejemplos ilustrativos de presentaciones recientes. Gran parte de la filosofía subyacente a esta Guía trata de la preocupación de la FDA de que en un ensayo sin grupo placebo (o más generalmente, un control no tratado), el no encontrar una diferencia entre el nuevo tratamiento y el control activo puede significar que ni Hubiera sido mejor que el placebo. Por lo tanto, una manera de mirar la Guía es considerarla un intento de asegurar que un estudio que concluya la no inferioridad haya identificado un tratamiento que es superior al placebo. La Guía proporciona una notación útil, que hemos adoptado para nuestra discusión en este artículo. Como se ha descrito anteriormente, utilizamos M1 para denotar el efecto total del control activo con respecto al placebo y M2 para indicar la mayor pérdida de efecto (inferioridad) que sería clínicamente aceptable cuando se compara el fármaco de ensayo con el control activo. El efecto M 1 se calcula a partir de información histórica que no se mide directamente en un ensayo de no inferioridad (a menos que el ensayo incluya un tercer brazo, ya sea un placebo o ningún tratamiento). Sin embargo, la ventaja asumida del control activo sobre el placebo también debe estar presente en el estudio actual, incluso si la ventaja no se observa directamente. Discutiremos este supuesto, conocido como sensibilidad de ensayo, con mayor detalle a continuación. La Orientación señala que en ciertos contextos, puede ser razonable demostrar sólo la no inferioridad al margen M 1. Tal resultado demuestra que el fármaco de ensayo tiene un efecto no nulo, pero ese efecto puede no ser clínicamente significativo. El margen más pequeño, M 2. Estrecha la conexión entre el fármaco de ensayo y el control activo, permitiendo una reivindicación de no inferioridad sólo si el fármaco de ensayo no ha perdido demasiado del efecto del control activo. La Orientación dice:. Un exitoso estudio de no inferioridad muestra rigurosamente que el fármaco de prueba tiene un efecto mayor que cero si excluye un margen NI de M1, siempre que M1 esté bien elegido y represente un efecto que el fármaco de control realmente hubiera tenido (frente a un placebo , Si hubiera habido un grupo de placebo). También puede demostrar que el fármaco de ensayo tuvo un efecto mayor que alguna fracción del efecto del fármaco de control, dependiendo del M2 que se use. (6, página 12, sección III. B). Aunque los ensayos de no inferioridad son a menudo conceptualmente deseables, las dificultades operacionales pueden afectar el proceso de elección del margen, ya sea debido a la insuficiencia de datos para soportar un margen seleccionado o un margen calculado que conduce a un tamaño de muestra poco práctico. La Guía discute brevemente diseños alternativos que pueden ser preferibles en estas situaciones, incluyendo estudios complementarios, poblaciones de pacientes cuidadosamente seleccionadas o estudios aleatorios de retirada. El enfoque principal de la Guía se encuentra en la sección IV: Elegir el margen de no inferioridad y analizar los resultados de un ensayo NI. Conceptualmente, la Guía divide el proceso en dos pasos: determinar una manera razonable de evaluar el efecto del control activo en el estudio actual y luego mostrar que el beneficio del control activo sobre el fármaco de prueba en el presente estudio no es mayor Que el (supuesto) efecto total del control activo sobre el placebo. Una vez que se ha seleccionado el margen, ya sea a partir de la opinión de expertos o de la analítica formal de datos históricos, los diseñadores del ensayo deben determinar cómo analizar los resultados de un estudio de no inferioridad. La Orientación establece dos enfoques posibles, que hemos introducido brevemente más arriba: el método de margen fijo (también conocido como método IC doble o el método 95-95 7,8) y el método de síntesis. En el método de margen fijo, un ensayo de no inferioridad tiene éxito si el límite inferior del IC 95 alrededor de la diferencia entre el fármaco de ensayo y el control activo se sitúa por encima del margen, ya sea M1 o M2. Por el contrario, el método de síntesis no define un margen o efecto específico del control activo basado en ensayos anteriores. La Orientación dice que el método de síntesis está diseñado para abordar directamente la cuestión de si el producto de prueba habría sido superior a un placebo había un placebo en el estudio de NI el énfasis nuestro, y también para abordar la cuestión relacionada de qué fracción de la actividad Comparadores se mantiene por el producto de prueba (6, página 30). Este enfoque combina el efecto del producto de prueba que se observa en el ensayo de no inferioridad con un efecto de control estimado, ya sea a partir de un solo ensayo o de un metanálisis, para obtener un IC único que se usa para probar la hipótesis de no inferioridad comparing the test product with the active comparator. Considered another way, however, the synthesis method could be applied (under the setting of 0 retention of the active control effect) to test whether or not the test product is better than placebo, assuming that an unbiased estimate can be obtained of the active control effect relative to placebo. The most important assumption here is that the effect of the active control has remained relatively constant (or can be modeled as discussed above) from the past into the current non-inferiority trial. This method is slightly more efficient in the statistical sense (in terms of requiring a smaller sample size to have the same statistical power), but is sensitive to assumptions, and does not readily incorporate clinical judgment into the definition of M 2 . The Guidance concludes with responses to a series of questions commonly asked about non-inferiority trials and some examples. The questions concentrate on the choice of margin and the distinction between M 1 and M 2 . the suitability of the active control, and options when a non-inferiority trial is not feasible. The examples illustrate the difference between the fixed-margin and synthesis approaches to analysis, how to estimate the active control effect in the absence of randomized placebo-controlled trials, a situation in which the historical active control effect is so small that a non-inferiority trial would be impractical, and a case in which the non-inferiority criteria for success can be relaxed when two studies provide consistent results. By contrast, the EMA Guidance document on choosing a non-inferiority margin 9 does not specify a method for selecting the margin. Instead, the EMA directs trial sponsors to use a combination of statistical and clinical judgment. The method of selecting a margin could come from a Delphi-type approach asking experts how much benefit over placebo they are willing to forego by using the new product instead of the product already shown to be effective. Alternatively, investigators may choose a margin using a more formal approach. The document warns, however, that the margin selected must be sufficiently small to ensure that the experimental therapy is better than placebo. In the words of the EMA, a minimal requirement for the decision making process involved in interpreting data from a non-inferiority trial is that we must be confident that the test product would have been shown to be efficacious if a placebo-controlled trial had been performed. Choosing the margin, technically Whether a Delphic method, the synthesis method, or the 95-95 approach is used, the first step in defining the non-inferiority margin is to gather all relevant information about the effect of the active control. For the Delphic method, all relevant information may reside in the minds, the experience, and the judgment of expert clinicians. For the synthesis and 95-95 methods, all relevant information comprises the set of data addressing the magnitude of the effect of the control treatment compared with placebo. Both of these latter methods may use the same approach to identify the effect of the control relative to placebo. The first 95 (or how does the control compare with placebo) As described above, the purpose of the first 95 in the 95-95 method is to calculate the effect size for the control group that gives a reasonable assurance of being no less than the true effect size. The philosophy is that calculating the 95 CI for the estimated effect size, and then choosing the lower end of that interval gives 95 confidence that the true effect size for the control intervention relative to placebo is at least as great as the calculated effect size. Having accepted this principle as the path to calculation, the next decision is what data to use to compute that CI. The FDA Guidance suggests applying meta-analytic techniques to calculate the estimated effect size and therefore the lower limit of the CI. For convenience in exposition, we discuss here binary outcomes much of the discussion is relevant to other types of outcomes as well. Meta-analysis is a set of methods used to combine data from a group of studies to obtain an estimate of a treatment effect. Thus, the first step in performing a meta-analysis is to collect the group of studies to use. When designing a non-inferiority trial, under ideal conditions the investigator would select a set of studies that includes only randomized trials comparing the control intervention with placebo. The patient population should be similar to the population being studied in the non-inferiority trial being planned the outcomes studied in the trials should be the same as that planned the control regimen (intervention and dose) should be the same as the regimen to be used in the new trial and the current standard of care should be the same as the standard of care in the previous trials (the constancy assumption). Furthermore, the total population studied in the set of trials under consideration should be sufficiently large to produce a precisely estimated effect size. In practice, limitations of available data often force investigators to compromise on some of these criteria. The populations studied in the previous trials may differ in important ways from the population planned for the new trial. The former trials may not all have uniformly compared the control intervention to placebo some of the trials may have used placebo whereas others may have used standard of care, and some might have used another active control. The outcome measures in the previous trials may differ from the outcome in the trial being designed. The intervention in the previous trials might have used different doses from that being contemplated in the new trial, or the relevant trials might have used a drug from the same class as the planned control, but not the same drug. And perhaps the most vexing problem of all, because it is essentially unmeasurable, is the possibility that the standard of care has changed in the years between the time of the previous trials and the trial being planned. If so, a drug shown to be effective in the past would perhaps not be shown to be effective were the same trial performed today. Similarly, if the trials under consideration for the meta-analysis were performed in countries with very different standards of care from the country in which the non-inferiority trial is to be performed, then the effect size of the control may be different from what it would have been in the country for which approval is being sought. Assuming that the set of trials being considered do not egregiously violate the ideal standards mentioned above, the investigators are ready to produce an overall estimate of the effect size. A meta-analysis comparing treatment A with treatment B starts with T randomized trials. If the primary outcome of the trial is binary, for k 1, 2. T . trial k has sample sizes n kA and n kB with S kA and S kB successes, respectively. The outcome of the Mantel-Haenszel (MH) method is the pooled odds ratio across the T trials. Each study can be represented by a 2 2 table with the structure depicted in Table 1. Illustration of a 2 2 table for the k th trial. A method of Peto described by Yusuf 13 is also often used in these settings. The method differs slightly from the MH approach however, for large sample sizes, the two methods yield almost identical results. In both the MH and the Peto methods, the logarithm of the odds ratio under the null hypothesis is approximately normally distributed, with mean zero and variance estimated from the observations. Both methods weight studies according to their sample size, not the size of the treatment effect within the study. In other words, large studies have a large influence on the pooled effect size, while small studies have a small influence on the estimated effect. Furthermore, if the true effect size is in fact identical in all of the studies, then the MH test is the optimal procedure, in the sense that it has the highest statistical power of all possible unbiased tests. This property is often subverted by saying that these tests require that the studies have the same true effect size, or that they are fixed effects models. In fact, neither the MH nor the Peto method requires identical effect sizes. The logical interpretation of a meta-analysis using either of these methods is not that the true effect of the treatment is the same in all situations, but rather that the overall estimate obtained from a meta-analysis is the best estimate of the treatment effect, averaged over all studies included. The FDA Guidance suggests a preference for so-called random-effects models in meta-analyses that will be used to establish the margin in non-inferiority trials. These models, in contrast to the MH and Peto approaches, make very specific assumptions about the distribution of the effect size across all potential studies. The standard method, introduced by DerSimonian and Laird 14 , assumes that the effect size (which in the case of binomial variables is the log odds ratio) comes from a normal distribution with mean and variance 2. This assumption implies that the estimated pooled effect is a weighted average of the effect obtained in each study in contrast to the MH and Peto methods, the weights are a function both of the sample sizes of the various studies and the closeness of each within-study estimate to the estimates from the other studies. As Petitti 15 points out, when results from studies are heterogeneous, random-effects models tend to overemphasize the importance of small studies. Such weighting may be inappropriate small studies are often conducted at a single center, and are more likely to be subject to bias and less likely to have had rigorous checking of data quality or the use of rigorous methods in study conduct. See Teo et al . 16 for a discussion of a random-effects meta-analysis on the use of magnesium, which led to erroneous results. In that case, one small study, with results quite different from other, larger, trials, dominated the estimated effect size because the assumptions of the random-effects model put undue weight on the small trial. The typical presentation of a meta-analysis shows a forest plot depicting the results of each trial, and then a summary statistic showing the estimated effect. Having completed this meta-analysis, the investigator calculates the 95 CI and finds what FDA calls M 1 . the effect size of the control therapy that will be assumed (Figure 3 ). If the outcome is a time-to-event variable or a continuous variable, the meta-analysis is typically performed on the estimated hazard ratios or means, respectively. Choice of M 2 . how much are we willing to lose As the EMA Guidance document stresses, both statistical and clinical judgment should play into the choice of margin. M 1 is calculated, as described above, as the lower end of the 95 CI around the best estimate of the effect size of the control group relative to placebo. This number becomes the starting point for the determination of the margin. The investigator must now ask how much of that benefit is acceptable to lose if the new therapy is adopted. The past experience of the investigators may allow them to define the magnitude of a loss of efficacy that they would be clinically willing to accept. By thinking through a population of, for example, 100 cases, a clinician may be able to quantify such judgments by considering what might be an acceptable loss of efficacy compared with a standard treatment. Sometimes, investigators do not carry out such a formal analysis instead they figure out how much money they can spend. From there, they determine the largest trial that they can run, and justify the margin after the fact. This (not exactly a secret) is what investigators often do for superiority trials the difference is that the purpose of a superiority trial is to show benefit, and if the power is too low for a given sample size, the trial is unlikely to show superiority. In the looking-glass non-inferiority world, however, the analogous action is to make the margin too big, increasing the chance of successfully demonstrating non-inferiority of the new treatment. M 2 is often selected to preserve half of the effect of M 1 however, when a drug is highly effective, losing half its effect, even though it may still be better than placebo, may not be clinically acceptable (Figure 4 ). Consider, for example, a childhood vaccine that prevents 96 of potential cases of disease. A new oral vaccine that only prevents 48 of disease would still be much more effective than placebo, but would hardly be attractive, even if less painful to the child than a shot. Thus, highly effective products for serious diseases should generally be evaluated in trials in which the margin preserves a large proportion of M 1. In other settings, if the benefits of the new product, in terms of adverse events, ease of administration, and cost are very great, investigators might be willing to forego an even higher percentage of M 1 . The second 95 (or, is the new product non-inferior to the old) Having selected M 1 (from the first 95) and M 2 (from judgment), the trial begins. At the end of the trial a 95 CI is calculated from the observed data. If that interval sits completely above the prespecified -, the trial has shown non-inferiority. In fact, we can refer back to Figure 2 and see how the confidence limit compares with the limits shown in the figure. Sample size The sample size for a non-inferiority trial is calculated to satisfy the following equation: In words, this means that the sample size must be large enough so that the probability is sufficiently high that the lower bound of the 95 CI for the estimated difference between the treated group and the control group is greater than the margin, -, when the true difference between the groups, T - C . is . Sample size for a non-inferiority trial is usually calculated under the assumption that the experimental agent and control treatment have equal effects, that is, when is assumed to be zero. Under the assumption that the new treatment is a little better, as is often the case for a new product, the required sample size decreases considerably. Consider, for example, a comparison of two proportions as illustrated in Table 2. For a fixed margin, set to be 10 of the true proportion in the active control, the table presents the approximate sample size required assuming equal treatment effects, a small (5), and a larger (10) benefit for the experimental agent. Approximate sample sizes required for non-inferiority comparison of proportions Sample sizes calculated using Pass 2008 methods for non-inferiority tests of two independent proportions, using the Z statistic with continuity correction and pooled variance, with a target power of 90 and level of 0.025. As an example of how to read the table, consider the row in bold font, in which the true proportion in the active control is 50. The smallest proportion that would be considered not non-inferior is 45 (a loss of 10 from the active control effect). Assuming that the proportions in the new treatment and the active control are equal, the total sample size required would be approximately 2,100 per group. If, however, the new treatment actually provided a 5 benefit over the active control, corresponding to a true proportion of 52.5, the required sample size would be approximately 1,000 per group to show non-inferiority. That is, with a sample size of 1,000 per group, if the true proportion in the active control is 50 and the true proportion in the new treatment is 52.5, then the probability is 90 that the lower bound of the CI is above -5. A 10 benefit, corresponding to a proportion of 55 in the new treatment, would require a sample size of just over 500 per group to show non-inferiority. Assuming a small benefit of the experimental agent compared with the active control cuts the sample size required roughly in half if the larger benefit is more realistic, the sample size is roughly a quarter of that required for the assumption of equal treatment effect. These are still, however, relatively modest improvements over the effect of active control, and although the sample size reductions when assuming these benefits are non-trivial, they are not so large as to suggest switching to a superiority trial to prove these benefits. The sample size required for a superiority trial to demonstrate the small benefit would be nearly 10 times larger than required for the non-inferiority trial, and around four times as large for the larger effect. Concerns about non-inferiority trials Non-inferiority trials have a host of complications. A serious concern, as briefly described above, is assay sensitivity, the ability of a trial to distinguish an effective therapy from one that is not effective, and the issues differ for non-inferiority trials and superiority trials. A superiority trial that lacks assay sensitivity will probably show that the new therapy does not have a statistically significant benefit over control, as the trial will be unable to declare efficacy. By contrast, a non-inferiority trial without assay sensitivity may generate a positive result (that is, it may show evidence of non-inferiority) if it shows no difference between the treatment groups, as this would lead to a conclusion of non-inferiority. Unlike superiority trials, non-inferiority trials have no internal check on assay sensitivity. (The check in a superiority trial is showing that the tested intervention is superior to control.) The EMA, in an effort to mitigate this problem, has suggested that non-inferiority trials, wherever possible, include a placebo arm to allow a direct comparison of both the active control and experimental agent with placebo. (Note that the study may be the new drug, the old drug, and the placebo, all on a background of standard of care.) In many cases, such a trial is not ethically acceptable. That is, randomizing participants to placebo may not be appropriate when an existing therapy with a proven survival benefit exists (for example, in cancer), whereas in other cases (for example, pain relief) a three-arm trial could work well. Another concern specific to non-inferiority trials pertains to the evolving standard of care, as discussed above. Consider the situation with an existing drug (drug A) that is approved for the treatment of an infectious disease on the basis of a placebo-controlled trial. Now suppose that a company applies to regulatory agencies for approval of a new treatment (drug B) using a non-inferiority design with drug A as the active control. Suppose that the trial is successful, that is, drug B is shown to be non-inferior to drug A with respect to the cure rate. Presumably, if drug B has some advantages, such as fewer side effects or an improved dosing schedule, it will then become the standard of care. Then suppose the next company applies for approval of another drug (drug C) using a non-inferiority comparison against drug B. If drug A were actually not superior to placebo in the first trial, it could be fairly easy to show that each new drug is non-inferior to the active control, even when none is any better than placebo. In most cases, the issue with standard of care is not as dire as this illustration might suggest, as the point estimates could show a positive effect even if the margin allowed some loss of efficacy, but the concern is valid. As mentioned earlier, this change in effect is termed biocreep in the case of drugs, and technocreep in the case of devices. Further, in the case of infectious diseases, the organisms themselves might evolve, leaving us with the possibility of true biological biocreep. That is, over time, organisms develop resistance to earlier drugs in the pharmacopoeia, meaning that each new drug is being compared with an active control that might be becoming less and less effective against a strengthening infectious agent. Here, biocreep represents actual biological change in the organism. What is usually called biocreep is more precisely virtual biocreep, where each successive product may be a little bit less effective than the previous product 17. 18 . But what if a non-inferiority trial cannot be performed As alluded to above, a variety of reasons may render a non-inferiority trial unfeasible. A rigorously calculated margin could yield a sample size that cannot be supported financially or by the potential study population. The EMA Guidance specifically warns investigators not to increase their non-inferiority margin when the scientifically derived margin produces an impractically large sample size. Sometimes the necessary data may not exist (or may not be available to a new investigator) to calculate a margin as carefully as desired or the treatment landscape may have changed so much since the historical data were collected that it is unclear what active control to use and whether or not that control really does show a benefit over placebo or the trial may be in a therapeutic area in which well-known effective treatments do not always beat placebo (for example, depression), making it difficult to argue for the assay sensitivity required to plan a non-inferiority trial. Although challenging, such circumstances offer opportunity to the creative trialist (and statistician). Conclusions A non-inferiority trial is reasonable when a new treatment has some property sufficiently favorable that physicians, and their patients, would be willing to sacrifice some degree of benefit relative to an already approved therapy. The advantage could be reduced cost, improved ease of use or dosing schedule (monthly versus weekly injections), simpler storage (not requiring refrigeration), or an improved safety profile. The benefit given up in exchange for these advantages, however, should not be so large that patients and physicians are not willing to use the new product. As discussed in the vaccine example above, an oral formulation that loses half the protection provided by an injection would not be a viable product. The choice of the non-inferiority margin and how much of the existing treatment effect to preserve incorporates in some sense these other aspects of treatment viability. From the perspective of regulators in the USA, however, success in a non-inferiority trial cannot formally incorporate these multi-faceted aspects it simply is not the way their regulations are written at this point. The M 2 does provide some room for flexibility by varying the proportion of the active control effect that is preserved. For serious diseases with known and highly effective treatments, any new product would need to preserve a large amount of the known treatment effect to be considered successful. In other settings (mild headache, for example), a more modest preservation of effect might still be of interest. In selecting M 2 . investigators and drug developers should consider consulting with patients to ascertain whether a margin acceptable to regulators is too large to be acceptable to patients. Expanding the primary endpoint into a composite incorporating efficacy and quality of life, efficacy and cost, or efficacy and safety, would be complicated. We advocate considering whether to revise the relevant legislation to modify the regulations so that regulators are legally able to take into account multiple dimensions of a new product. The resulting analyses would become ever more complicated, but the regulatory decisions would be more nuanced and ultimately better for the public health. At present, however, success in a non-inferiority trial in the USA depends upon success in the primary outcome measure, not on other aspects of benefit, such as safety, and regulatory success using non-inferiority trial designs may require completion of more than one such trial. Declarations Authors original submitted files for images Below are the links to the authors original submitted files for images. The authors declare that they have no competing interests. Authors contributions JS and JW drafted the manuscript. Both authors read and approved the final manuscript. We thank the reviewers for helpful comments and suggestions, and Tara Gentile for assistance with creation of the figures. Authors Affiliations Statistics Collaborative, Inc. References Temple R, Ellenberg SS: Placebo-controlled trials and active-control trials in the evaluation of new treatments Part 1: Ethical and scientific issues. Annals of Internal Medicine. 2000, 133: 455-463. View Article PubMed Google Scholar Ellenberg SS, Temple R: Placebo-controlled trials and active-control trials in the evaluation of new treatments Part 2: Practical issues and specific cases. Annals of Internal Medicine. 2000, 133: 464-470. View Article PubMed Google Scholar Wittes J: Active-control trials: a linguistic problem. International Chinese Stat Assoc Bulletin. 2001, 39-40. Google Scholar Wiens BL, Zhao W: The role of intention to treat in analysis of noninferiority studies. Clin Trials. 2007, 4: 286-291. 10.1177/1740774507079443. View Article PubMed Google Scholar EMA Committee for Proprietary Medicinal Products (CPMP): Points to Consider on Switching between Superiority and Non-inferiority London. 2000 Google Scholar United States Food and Drug Administration: Guidance for Industry Non-Inferiority Clinical Trials. 2010 Google Scholar Rothmann M, Li N, Chen G: Design and analysis of non-inferiority mortality trials in oncology. Stat Med. 2003, 22: 239-264. View Article PubMed Google Scholar Rothmann MD, Tsou HH: On non-inferiority analysis based on delta-method confidence intervals. J Biopharm Stat. 2003, 13: 565-583. 10.1081/BIP-120022775. View Article PubMed Google Scholar EMA Committee for Medicinal Products for Human Use (CHMP): Guideline on the Choice of the Non-inferiority Margin London. 2005 Google Scholar Snappin S, Jiang Q: Controlling the type 1 error rate in non-inferiority trials. Stat Med. 2008, 27: 371-381. 10.1002/sim.3072. View Article Google Scholar Snappin S, Jiang Q: Preservation of effect and the regulatory approval of new treatments on the basis of non-inferiority trials. Stat Med. 2008, 27: 382-391. 10.1002/sim.3073. View Article Google Scholar Mantel N, Haenszel W: Statistical aspects of the analysis of data from retrospective studies of disease. J Natl Cancer Inst. 1959, 22: 719-748. PubMed Google Scholar Yusuf S, Collins R: Why do we need some large, simple randomized trials. Stat Med. 1984, 3: 409-420. 10.1002/sim.4780030421. View Article PubMed Google Scholar DerSimonian R, Laird N: Meta-analysis in clinical trials. Control Clin Trials. 1986, 7: 177-188. 10.1016/0197-2456(86)90046-2. View Article PubMed Google Scholar Petitti DB: Meta-analysis, Decision Analysis, and Cost-effectiveness Analysis: Methods for Quantitative Synthesis in Medicine. 2000, Oxford: Oxford University Press, 306 pp Google Scholar Teo KK, Yusuf S: Effects of intravenous magnesium in suspected acute myocardial infarction: overview of randomized trials. BMJ. 1991, 303: 1499-1503. 10.1136/bmj.303.6816.1499. View Article PubMed PubMed Central Google Scholar Fleming TR: Current issues in non-inferiority trials. Stat Med. 2008, 27: 317-332. 10.1002/sim.2855. View Article PubMed Google Scholar Fleming TR, Powers JH: Issues in noninferiority trials: The evidence in community-acquired pneumonia. Clin Infect Dis. 2008, 47 (Suppl 3): S108-S120. View Article PubMed PubMed Central Google Scholar Copyright Schumi and Wittes licensee BioMed Central Ltd. 2011 This article is published under license to BioMed Central Ltd. This is an Open Access article distributed under the terms of the Creative Commons Attribution License ( creativecommons. org/licenses/by/2.0 ), which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
No comments:
Post a Comment