Non eticità dei trial di non inferiorità
Silvio Garattini, Vittorio Bertele’
1. Direttore, IRFMN, Milano
2. Politiche Regolatorie del Farmaco
bertele@marionegri.it

ABSTRACT
Non inferiority trials are unethical.
There are several alleged reasons for using equivalence or non-inferiority trials rather than superiority designs. The true reason is that proving non-inferiority of new products is less risky than aiming to establish their superiority. Failure to prove superiority can tarnish the product’s commercial image, but it may provide more information for physicians and patients. This is why non-inferiority trials clearly aim to over look differences that might stop the product from getting onto the market, rather than highlighting them, so as to define true place for the new treatment in therapy. A demonstration of non-inferiority leaves the product in a kind of limbo: its place in therapy is not established, but its place on the market is assured. This paper tries to prove that the scientific community should ban non-inferiority and equivalence trials simply because they are unethical, no matter which measures are taken to prevent their methodological pitfalls and inappropriate interpretation of results. Randomisation should not even be allowed, since it is unethical to leave it to chance whether patients receive a treatment that, at best, is the same as what they would have received anyway, but might also reduce most of the previous therapeutic advantages. Furthermore, the uncertainty surrounding alleged non-inferiority is hard to accept: however small the allowed increase in relative risk, it unavoidably implies an unacceptable absolute excess of adverse events in the patient population.
Key words.  Clinical trials, research design, ethic of research, therapeutic equivalency.

RIASSUNTO
Diversi sono gli scopi dichiarati per giustificare la sempre più frequente adozione di studi di equivalenza o di non inferiorità anziché di superiorità rispetto ai farmaci già disponibili; ma nessuno sembra reggere alla prova dei fatti. Il vero motivo è che provare la non inferiorità di nuovi prodotti è meno rischioso che mirare a stabilirne la superiorità. Se il test di superiorità fallisce, al prodotto può derivare un pesante danno di immagine, anche se quel risultato in realtà può fornire utili informazioni a medici e pazienti. Una documentazione di non inferiorità invece assicura al prodotto il mercato, pur senza definirne la collocazione tra gli altri trattamenti disponibili. Questo articolo intende convincere della necessità di bandire i trial di equivalenza e di non inferiorità per il semplice motivo che tali studi non sono etici. Non è etico affidare al caso, attraverso la randomizzazione, la possibilità che un paziente riceva un trattamento che nella migliore delle ipotesi è uguale a quello che comunque avrebbe ricevuto ma potrebbe anche ridurre gran parte dei vantaggi che in precedenza gli erano assicurati dai trattamenti correnti. Inoltre, dato che per definizione la non inferiorità include un potenziale aumento del rischio relativo, questo per quanto piccolo comporta inevitabilmente un inaccettabile eccesso di eventi avversi nella popolazione dei pazienti.
Parole chiave.  Studi clinici, disegno di ricerca, etica della ricerca, equivalenza terapeutica.


I trial di equivalenza – e i trial di non inferiorità, più recentemente adottati – sono stati ampiamente utilizzati nella valutazione di nuovi farmaci1. Questo tipo di studi è in genere accettato dalle autorità regolatorie per l’approvazione di nuovi farmaci o di nuove indicazioni, anche se l’agenzia statunitense Food and Drug Administration ha recentemente espresso qualche perplessità in merito2.
Questo documento intende convincere la comunità scientifica e le autorità regolatorie e di indirizzo etico della necessità di bandire i trial di equivalenza e di non inferiorità per il semplice motivo che tali studi non sono etici, a prescindere da qualsiasi ulteriore discussione circa i loro limiti metodologici e le difficoltà di interpretare i loro risultati3-8.

IL PRETESTO PER CERCARE LA NON INFERIORITÀ
Adottare modelli di equivalenza o di non inferiorità anziché di superiorità rispetto ai farmaci già disponibili indica chiaramente che l’industria farmaceutica non crede che i suoi nuovi farmaci siano accreditati di un qualsiasi valore aggiunto. Ma lo scopo dichiarato è quello di offrire alternative ai pazienti che tollerano poco o non rispondono ai farmaci disponibili. Le ditte farmaceutiche sostengono che in tal caso non vi sia ragione per definire meglio il profilo di beneficio-rischio di questi nuovi farmaci: è sufficiente documentare che siano simili ai prodotti esistenti. Non è neppure necessario sapere se un nuovo farmaco dotato di peculiarità innovative, ad esempio un’attività protratta nel tempo, sia davvero più efficace. Il suo valore aggiunto consiste già nella migliore adesione al trattamento che certo deriverà dalla somministrazione unica giornaliera; non c’è bisogno di documentare nulla di più. Lo stesso vale per una formulazione più comoda: il valore aggiunto sta nella facilità d’uso.
In sostanza, quando un nuovo farmaco si propone solo per vantaggi minori rispetto ai prodotti disponibili, in genere si ritiene che un test di superiorità non sia necessario. La ventilata non inferiorità del profilo di beneficio-rischio rispetto a prodotti già disponibili garantisce ai nuovi farmaci una fetta di mercato e consente loro di competere con gli altri sulla base di peculiarità accessorie o piccole differenze camuffate da sicuri vantaggi per i pazienti.
DEFINIZIONE DI NON INFERIORITÀ
Che cosa non va con questo tipo di approccio? Il problema nasce dalla definizione di non inferiorità e dai criteri statistici alla base di tale definizione3-8. La non inferiorità è una sorta di similarità entro certi limiti predefiniti. Il limite è rappresentato dal livello di inferiorità considerato tollerabile del nuovo farmaco rispetto allo standard di riferimento. Questa arbitraria differenza in termini di perdita di efficacia si definisce «margine di non inferiorità» o «delta». Come illustrato dalla figura, la non inferiorità si considera stabilita quando l’intervallo di confidenza al 95% dell’effetto del nuovo farmaco non supera il limite di inferiorità prestabilito.



Il farmaco sperimentale di cui si verifichi la non inferiorità può in realtà essere meno efficace o meno sicuro, ma non tanto da essere riconosciuto come tale. Così se il margine di non inferiorità è posto a 7,5%, una maggiore incidenza di eventi gravi – diciamo il 7% invece del 5% riscontrato attualmente per il comparatore – non è considerato sufficiente per marcare una differenza tra il nuovo e il vecchio trattamento. Il nuovo farmaco sarà considerato non inferiore al vecchio anche se tra 1000 pazienti trattati con il primo si possono verificare 20 morti o eventi gravi in più che con quest’ultimo. Ricercare la non inferiorità quindi significa spesso non voler riconoscere le differenze.

L’USO DEL LIMITE DI NON INFERIORITÀ
Quanto più vasto il limite di non inferiorità stabilito, cioè il peggior risultato designato come area di non inferiorità, tanto più limitato è il campione necessario per il test dell’ipotesi. Quanto più piccolo il campione, tanto minore l’investimento richiesto per condurre il trial e tanto più grande la possibilità di non evidenziare una possibile differenza e concludere per la non inferiorità. Questo ha condotto all’adozione di ipotesi estreme: lo studio COMPASS, ad esempio, considerava il trombolitico saruplase equivalente alla streptochinasi nel trattamento dell’infarto miocardico acuto (IMA) anche se nel gruppo con saruplase si fosse verificato il 50% in più di decessi rispetto al gruppo di controllo9. In termini assoluti ciò significa considerare saruplase efficace e sicuro tanto quanto la streptochinasi anche se ci fossero 35 morti in più rispetto alle 70 attese ogni 1000 pazienti trattati. Il test di questa discutibile ipotesi richiese soltanto 3000 pazienti in un’epoca in cui verificare la superiorità di attivatori tessutali del plasminogeno sulla streptochinasi coinvolse oltre 90.000 pazienti in tre grandi studi clinici randomizzati10-12.
Oltre che paradossale l’ipotesi, l’effettivo risultato di studi come il COMPASS destano perplessità per l’ampiezza degli intervalli di confidenza. Talvolta l’ampiezza degli intervalli è tale che ciò che è considerato non inferiore da un punto di vista statistico non può esserlo da un punto di vista clinico, come nel caso dei confronti tra trombolitici13, antidepressivi14, ecc.

I RISULTATI INAFFIDABILI DI UNA METODOLOGIA DISCUTIBILE
Come negli studi di superiorità quando il controllo è il placebo, la non inferiorità rispetto a un comparatore attivo può dare accesso al mercato a farmaci che in realtà sono meno efficaci e sicuri di quelli di corrente uso clinico. Peggio, anzi, se la differenza tra il trattamento standard e il placebo è piccola, a seconda del limite di non inferiorità prescelto, l’effetto del farmaco che si suppone non inferiore può in realtà essere simile a quello del placebo. In ogni caso l’apparente perdita di efficacia può essere maggiore di quanto ipotizzato dal momento che l’effetto del trattamento standard include quello del placebo: infatti se il trattamento standard previene il 30% degli eventi attesi e il limite di non inferiorità adottato consente al nuovo farmaco di prevenirne soltanto il 20%, l’apparente perdita di efficacia è pari a un terzo, ma può essere la metà se l’effetto placebo garantisce il 10% dell’effetto totale. Gli studi di non inferiorità in tal modo espongono i pazienti a esperimenti clinici senza alcuna garanzia che il farmaco sperimentale non sia peggiore del trattamento standard e senza alcun tentativo di verificare se magari non sia migliore.

GLI STUDI DI NON INFERIORITÀ: SOLO A SCOPI COMMERCIALI,
NON NELL’INTERESSE DEI PAZIENTI
Quali sono le ragioni addotte per giustificare un simile approccio? Una scusa di solito avanzata è quella che ci possono essere pazienti che non rispondono ai trattamenti standard e i prodotti con attività simile a questi possono rappresentare utili alternative. Lo scopo è ragionevole, ma l’approccio no. Qual è infatti il razionale di stabilire la non inferiorità di questi prodotti nella popolazione generale dei pazienti? Se il loro target sono i non responder ai trattamenti disponibili, perché non verificare la loro superiorità rispetto ai farmaci poco efficaci in questo sottogruppo di pazienti? Quest’ultimo approccio terrebbe conto degli interessi dei pazienti, ma non di quello delle ditte farmaceutiche che aspirano a un mercato tanto più vasto possibile e non solo a una fetta di questo rappresentata da un sottogruppo di pazienti.
Un’altra ragione che si adduce è che i farmaci non inferiori possono essere meglio tollerati o più facili da usare. Tuttavia questo non sarà confermato dagli studi di non inferiorità, dato che il vantaggio, se reale, dovrebbe tradursi in una migliore adesione al trattamento e alla fine in un migliore (non in un «non peggiore») esito clinico. Anche l’evenienza – peraltro mai verificatasi – in cui un farmaco non inferiore dal punto di vista terapeutico fosse reso disponibile ad un prezzo inferiore sarebbe difficile da accettare. Infatti per provare che un possibile minore beneficio nei singoli pazienti è compensato dal maggiore vantaggio dovuto ad un uso più allargato del nuovo farmaco nella popolazione generale sarebbero necessari studi molto più vasti e di più lungo termine rispetto ai trial di non inferiorità.
Questi esempi suggeriscono che qualsiasi questione di rilevanza pratica per i pazienti richiede un test di superiorità. Il test di superiorità, si verifichi o no l’ipotesi che si propone, fornisce informazioni circa la collocazione del nuovo farmaco nel contesto dei trattamenti esistenti. Il test di non inferiorità, invece, sembra rispondere solo alle esigenze dell’industria farmaceutica, assicurando al nuovo farmaco una collocazione sul mercato e sicuri profitti indipendentemente dal suo valore rispetto ai farmaci già disponibili.
Dal punto di vista dell’industria, provare la non inferiorità di nuovi prodotti è meno rischioso che mirare a stabilirne la superiorità. Se il test di superiorità fallisce, al prodotto può derivare un pesante danno di immagine, anche se quel risultato in realtà può fornire utili informazioni a medici e pazienti. Questo è il motivo per cui gli studi di non inferiorità mirano a non riconoscere possibili differenze (che potrebbero inibire al nuovo prodotto l’accesso al mercato) piuttosto che evidenziarle (in modo da definire meglio il cosiddetto «place in therapy» del nuovo prodotto). Una documentazione di non inferiorità lascia il prodotto in una sorta di limbo: la sua collocazione tra gli altri trattamenti disponibili non è definita, ma quella sul mercato è comunque assicurata.
Oltre che meno rischioso dal punto di vista dell’immagine, è anche più semplice e meno dispendioso dimostrare la non inferiorità rispetto alla superiorità, come dimostrato dal caso esemplare, quantunque estremo, dello studio COMPASS che ha reclutato 30 volte meno pazienti rispetto ai trial di superiorità che avevano sottoposto a verifica la stessa ipotesi10-12.

NON È ETICO COINVOLGERE PAZIENTI IN TRIAL DI NON INFERIORITÀ
Quale tipo di etica legittima un approccio che sembra nascondere le differenze anziché metterle in luce? Gli studi di non inferiorità sono privi di giustificazione etica perché non offrono nessun vantaggio ai pazienti, attuali o futuri. Essi deliberatamente rinunciano a considerare gli interessi dei pazienti a favore di quelli commerciali. Questo tradisce il sostanziale accordo che si stabilisce tra pazienti e ricercatori in qualsiasi corretto consenso informato, che presenta la randomizzazione come unica soluzione etica per dare risposta a una reale incertezza clinica. Gli studi di non inferiorità mirano solo a millantare una qualche efficacia, ma senza fornire prove definitive di essa. Pochi pazienti acconsentirebbero a partecipare allo studio se il messaggio nel modulo che ne chiede il consenso informato fosse posto chiaramente: perché un paziente dovrebbe accettare un trattamento che nella migliore delle ipotesi non è peggiore, ma in realtà potrebbe essere meno efficace o sicuro di quelli disponibili? Perché i pazienti dovrebbero partecipare a un test randomizzato che offrirà loro solo risposte dubbie dal momento che la non inferiorità include la possibilità di un esito peggiore15?
CONCLUSIONI
Gli studi di non inferiorità disattendono entrambe le indicazioni che servono da guida per disegnare buoni studi clinici, ovvero «poni una domanda importante; e dà ad essa una risposta metodologicamente affidabile»16. La domanda importante è quella vera per il paziente, cioè quella che affronta un problema clinico reale. Ma uno studio pianificato per verificare se un farmaco è «non peggiore» rispetto ai trattamenti standard, senza nessun interesse per alcun valore aggiunto, non pone alcuna domanda clinicamente rilevante. Tale studio riduce solo i costi di ricerca e sviluppo del prodotto e i rischi per la sua immagine commerciale, senza curarsi dell’interesse dei pazienti. La randomizzazione non dovrebbe neppure essere consentita in una tale situazione, perché non è etico affidare al caso la possibilità che un paziente riceva un trattamento che nella migliore delle ipotesi è uguale a quello che comunque avrebbe ricevuto ma potrebbe anche ridurre gran parte dei vantaggi che in precedenza gli erano assicurati dai trattamenti correnti.
Riguardo all’affidabilità dell’approccio metodologico e quindi della risposta, l’incertezza che circonda la conclusione di non inferiorità è difficile da accettare: per quanto piccolo, l’aumento del rischio relativo comporta inevitabilmente un inaccettabile eccesso di eventi avversi nella popolazione dei pazienti. A volte il rischio può risultare significativamente più alto nel gruppo sottoposto al trattamento sperimentale, senza che tutto ciò riesca a smentire la non inferiorità di tale trattamento. È pertanto chiaramente non etico esporre pazienti a tale rischio sia nella fase sperimentale sia nella realtà quotidiana senza la prospettiva di alcun vantaggio in cambio.  


BIBLIOGRAFIA

1. Bertele’ V, Torri, W, Garattini S. Equivocal equivalence. Available on the web http: //www.marionegri.it/page.asp?idp=891441724 (accesso verificato il 17 ottobre 2006).
2. US FDA's non-inferiority stance could slow sinusitis approvals. SCRIP - World Pharmaceutical News 2006; Issue 3193: p 27. Filed 18 September 2006.
3. Siegel JP. Equivalence and noninferiority trials. Am Heart J 2000; 139: S166-70.
4. James Hung HM, Wang SJ, Tsong Y, Lawrence J, O’Neil RT. Some fundamental issues with non-inferiority testing in active controlled trials. Stat Med 2003; 22: 213-25.
1. Hung HM, Wang SJ, O’Neill R. A regulatory perspective on choice of margin and statistical inference issue in non-inferiority trials. Biom J 2005; 47: 28-36.
5. D’Agostino RB Sr, Massaro JM, Sullivan LM. Non-inferiority trials: design concepts and issues. The encounters of academic consultants in statistics. Stat Med 2003; 22: 169-86.
6. Snapinn SM. Alternatives for discounting in the analysis of noninferiority trials. J Biopharm Stat 2004; 14: 263-73.
7. Kaul S, Diamond GA. Good enough: a primer on the analysis and interpretation of noninferiority trials. Ann Intern Med 2006; 145: 62-9.
8. Tebbe U, Michels R, Adgey J, et al. Randomized, double-blind study comparing saruplase with streptokinase therapy in acute myocardial infarction: the COMPASS equivalence trial.
J Am Coll Cardiol 1998; 31: 487-93.
9. Gruppo Italiano per lo Studio della Sopravvivenza nell’Infarto miocardico. GISSI-2: a factorial randomized trial of alteplase versus streptokinase and heparin versus no heparin among 12490 patients with acute myocardial infarction. Lancet 1990; 336: 65-71.
10. ISIS-3: a randomised comparison of streptokinase vs tissue plasminogen activator vs anistreplase and of aspirin plus heparin vs aspirin alone among 41,299 cases of suspected acute myocardial infarction. ISIS-3 (Third International Study of Infarct Survival) Collaborative Group. Lancet 1992; 339: 753-70.
11. An international randomized trial comparing four thrombolytic strategies for acute myocardial infarction. The GUSTO investigators. N Engl J Med 1993; 329: 673-82.
12. Bertele’ V, Torri V, Garattini S. Inconclusive messages from equivalence trials in thrombolysis. Heart 1999; 81: 675-6.
13. Barbui C, Violante A, Garattini S. Does placebo help establish equivalence in trials of new antidepressants? Eur Psychiatry 2000; 15: 1-6.
14. Garattini S, Bertele’ V, Li Bassi L. How can research ethics committees protect patients better? BMJ 2003; 326: 1199-201.
15. Yusuf S, Collins R, Peto R. Why do we need some large, simple randomized trials? Stat Med 1984; 3: 409-22.
16. Splawinski J, Kuzniar J. Clinical trials: active control vs placebo. What is ethical? Science and Engineering Ethics 2004; 10: 73-9.