BG BAU Berufsgenossenschaft der Bauwirtschaft

Rückwärts blättern Vorwärts blättern

3 Risikoquantifizierung im Bereich beobachteter Krebsinzidenzen

3.1 Auswahl von Tierspezies, Geschlecht und Tumorlokalisation(en)

(1) Liegen Tumordaten zu mehreren der üblicherweise eingesetzten Tierarten vor, so ist die Tierspezies bevorzugt heranzuziehen, die am empfindlichsten reagiert.

(2) Bei der Auswahl der Tierspezies und der dort beobachteten Tumortypen und -lokalisationen ist jedoch abzuwägen, inwieweit eine quantitative Übertragbarkeit auf den Menschen angenommen werden kann. Eine Übertragbarkeit ist insbesondere dann anzunehmen, wenn die Tumorlokalisation im Speziesvergleich identisch ist und/oder Erkenntnisse zum "mode of action" das Auftreten eines bestimmten Tumortyps (oder einer bestimmten Tumorlokalisation) stützen.

Tierexperimentelle Studien werden vor dem Hintergrund durchgeführt, dass qualitative und quantitative Übertragungen auf dem Menschen (ggf. unter Berücksichtigung von Extrapolations- und/oder Korrekturfaktoren) prinzipiell möglich sind. Insofern ist grundsätzlich das tierexperimentelle Modell mit der größten Verwandtschaft zum Menschen zu bevorzugen. Im Falle des Nichtwissens darüber, welches Tiermodell im speziellen Fall dem Menschen am nächsten steht, ist ein konservatives Herangehen zu wählen. Dieses gilt grundsätzlich, auch wenn im Einzelfall Widersprüche aufgezeigt wurden: Bei 1,3-Butadien scheint der menschliche Metabolismus dem der weniger empfindlichen Ratte ähnlicher zu sein, als dem der empfindlicheren Maus. Werden jedoch epidemiologische und tierexperimentelle Risikoquantifizierungen gegenübergestellt, ist bei 1,3-Butadien eine größere Übereinstimmung des Krebsrisikos für Maus und Mensch zu beobachten (Roller et al., 2006). Dieser mögliche Widerspruch im Falle von 1,3-Butadien bedeutet, dass a) den Humandaten besonderes Gewicht zuzumessen ist (vgl. Abschnitt 1.5(1)), dass b) konservative Extrapolationsschritte wie die Annahme von Linearität im Niedrigrisikobereich nicht vorschnell wegen vermeintlicher mechanistischer Hinweise aufgegeben werden sollten, und dass c) die relative Empfindlichkeit von Versuchstieren gegenüber dem Menschen weitergehender Überprüfung bedarf.

(3) Eine im Tierexperiment beobachtete Tumorlokalisation, die von den Beobachtungen aus epidemiologischen Studien beim Menschen abweicht, spricht in der Regel nicht gegen deren Humanrelevanz (vgl. aber Hinweise unter 3.1 (6)). Die resultierende Risikoquantifizierung ist jedoch als unsicherer zu betrachten.

(4) Liegen erhöhte Tumorinzidenzen in beiden Geschlechtern vor, so sind in der Regel die Daten zu der Geschlechtergruppe mit der höheren Tumorrate heranzuziehen. Liegen die Tumorraten in beiden Geschlechtern etwa in gleicher Höhe, so ist zur Erhöhung der statistischen Absicherung eine Addition der Daten zu beiden Geschlechtern zulässig.

(5) Liegen Tumore in mehreren Organen vor, so sind die Daten zu allen Organen heranzuziehen, bei denen eine statistisch und/oder biologisch erhöhte Tumorzahl in einer Dosierung beobachtet wird, und/oder eine statistisch signifikante Dosis-Wirkungsbeziehung (ggf. auch nur als Trend) erkennbar ist.

Ausgewählt wird in der Regel die Tumorlokalisation, die zur niedrigsten Expositions-Risiko-Beziehung führt (vorsichtigste Risikokonzentrationen). Davon kann im Einzelfall begründet abgewichen werden (vgl. 3.1 (6)).

Es gibt eine Reihe typischer Tumorformen, die in bestimmten Nagerstämmen mit hoher, teilweise auch stark variabler Spontaninzidenz auftreten und deren Relevanz für den Menschen nicht feststeht (vgl. 3.1 (6)). Wenn deren Häufigkeit dosisabhängig gegenüber der aktuellen und der mittleren historischen Kontrolle erhöht ist, kann in der Regel von einem expositionsbedingten Effekt ausgegangen werden.

(6) Die Berücksichtigung oder Nichtberücksichtigung bestimmter Tumorlokalisationen (ggf. mit Einschränkung auf bestimmte Tierspezies oder -stämme) ist im Einzelfall abzuwägen. Die Nichtberücksichtigung bedarf einer Begründung. Als Hinweise für die Frage der (qualitativen und/oder quantitativen) Übertragbarkeit auf den Menschen gelten:

  • Eine (auch quantitative) Übertragbarkeit ist in der Regel gegeben, wenn es sich zugleich um eine gentoxische Substanz handelt und ein gentoxisches Wirkprinzip bei der Kanzerogenese als relevant eingeschätzt wird.
  • Eine Übertragbarkeit auf den Menschen wird gestützt, wenn die Bioverfügbarkeit der Substanz oder ihres Metaboliten im Zielorgan angenommen oder gezeigt werden kann. Bei der Abwägung, ob eine quantitative Übertragbarkeit angenommen wird, ist demnach die (beobachtete oder zu unterstellende) Konzentration der Substanz am Zielorgan einzubeziehen.
  • Bei fehlender oder eingeschränkter Bedeutung der Gentoxizität können mechanistische Erkenntnisse zum Wirkprofil im Speziesvergleich (z. B. Zytotoxizität, endokrine Aktivität) für die Einschätzung der Übertragbarkeit herangezogen werden.
  • Bei α2U-globulinbedingten Nierentumoren der männlichen Ratte ist keine (qualitative oder quantitative) Übertragbarkeit anzunehmen.
  • Eine Einzelfallabwägung ist insbesondere bei folgenden Tumorlokalisationen erforderlich, wenn die Gentoxizität beim Wirkprinzip keine dominierende Rolle spielt:
    • Lebertumoren nach PPARα-Stimulation ("Peroxisomenproliferation")
    • Leukämien der Fischer-Ratte
    • Phäochromocytome der Fischer-344-Ratte
    • Schilddrüsentumoren bei der Ratte
    • Leydigzelltumoren
    • Lebertumoren der B6C3F1-Maus
    • Vormagentumoren
    • Mesotheliome der Tunica albuginea bzw. Tunica vaginalis (männliche Ratten)
    • Harder’sche Drüse (Nickhautdrüse im Augenwinkel) und Zymbaldrüse (Ohrtalgdrüse)
  • Zur näheren Diskussion der Relevanz dieser Tumorlokalisationen und zur Einzelfallabwägung vgl. Abschnitt 8.3.
    Der rein qualitative Speziesvergleich ist für Einstufungen relevant, jedoch nicht für die hier betrachtete Ermittlung einer Expositions-Risiko-Beziehung und einer Risikokonzentration.
  • Auch ohne Gentoxizität sind alle anderen Lokalisationen und Tumorarten, Tumoren bei anderen als den genannten Tierspezies oder -–stämmen in der Regel quantitativ übertragbar, teilweise jedoch mit erheblichen Unsicherheiten.
  • Liegen sowohl Tumorinzidenzen an a) Lokalisationen mit fraglicher Humanrelevanz und/oder fraglicher quantitativer Übertragbarkeit vor und an b) Lokalisationen mit eindeutigerer quantitativer Übertragbarkeit, so ist letzteren in der Regel der Vorzug bei der Risikoquantifizierung zu geben.
    Es ist zu prüfen, ob nicht auch andere Tumorformen aufgetreten sind, die nicht der Spontanpathologie zugeordnet werden können und deren Relevanz für den Menschen nicht oder weniger in Frage steht. Diese sind in der Regel bei der Risikoquantifizierung den Daten für unsichere Lokalisationen vorzuziehen, selbst wenn sie nicht in der vergleichsweise niedrigeren Konzentration zu beobachten sind.

    Eine ausführlichere Diskussion zu dieser Differenzierung befindet sich in Abschnitt 8.3.

(7) Die Tumorinzidenzen in den verschiedenen unter (5) und (6) genannten Organen sind in der Regel getrennt zu quantifizieren und vergleichend gegenüberzustellen. Der Risikoquantifizierung wird im Standardfall die Tumorlokalisation mit der niedrigsten T25 zugrunde gelegt (Dosis oder Konzentration, bei der in zusätzlichen 25 % der Tiere Krebs auftritt). Dabei wird die unterschiedliche Hintergrundrate bei der T25-Berechnung berücksichtigt. In Einzelfällen ist es jedoch geboten, auch verschiedene Tumorlokalisationen zusammenzufassen (Beispiel: Asbest – Mesotheliome und Lungentumoren). In solchen Fällen ist die Maßgeblichkeit der Gesamtinzidenz für die Risikoquantifizierung zu begründen.

Mit dem T25-Verfahren wird ausgehend von einer Konzentration mit signifikant erhöhter Tumorinzidenz durch lineare Interpolation (i) unter Berücksichtigung der Hintergrundinzidenz, (ii) gegebenenfalls unter Korrektur einer nicht lebenslangen Versuchsdauer, und (iii) unter Annahme einer vollständigen Resorption eine Dosis ermittelt, bei der die Inzidenz für diesen Tumor im Tierversuch 25 % bei lebenslanger Exposition beträgt (vgl. auch Glossar).

Mit der Berechnung von T25 oder BMD für mehrere Tumorlokalisationen, Geschlechter sowie mit und ohne gutartige Tumoren soll ermöglicht werden, in späteren Schritten parallel von mehreren POD aus und verknüpft mit einer differenzierten mechanistischen Diskussion in den Niedrigrisikobereich zu extrapolieren. Aggregationen (Zusammenfassungen von Befunden) sind insbesondere dann sinnvoll, wenn die Frage der Differenzierung verschiedener Dosis-Wirkungsbeziehungen (z. B. wegen der Homogenität der beobachteten Reaktionen) nicht im Vordergrund steht. So kann es sinnvoll sein, die Befunde bei einer einheitlichen Wirkungsweise eines Kanzerogens in verschiedenen Organen auch über verschiedene Tumorlokalisationen zu aggregieren. Im TGD der EU wird ausgeführt: "For a substance inducing more than one type of tumours, the determination of a dose-descriptor value is from each relevant tumour type rather than from the number of tumour bearing animals. If several relevant data sets on tumour-incidences are available, dose descriptors values should be derived for all these." (Abschnitt 4.14.2.3; EC, Technical Guidance Document, 2005). Verschiedene Hintergrundraten von Tumoren in verschiedenen Organen sprechen gegen eine Aggregation mehrerer Tumorlokalisationen.

Für eine differenziertere Betrachtung der Möglichkeiten zur Zusammenordnung von Tumoren für die Krebsrisikoberechnung argumentieren McConnell et al. (1986). U.S.EPA interpretiert diese Auswertung: "The incidence of benign and malignant lesions of the same cell type, usually within a single tissue or organ, are considered separately and are combined when scientifically defensible" (Eine konkrete Auflistung, wann Zusammenordnungen vorgenommen werden können, wird in McConnell et al. (1986) gegeben).

Es wird also nicht das Prinzip vertreten, die Gesamtzahl der tumortragenden Tiere, gleich welcher Tumorlokalisation, aufzuaddieren.

Manche ältere Studien waren auch so angelegt, dass nur verdächtige Zielorgane ausgewertet wurden. Entsprechend selektive Studien können dennoch für die Risikoquantifizierung herangezogen werden, wenn sie kanzerogene Wirkungen erkennen lassen. Mehrfach-Tumoren (Multiplizität) werden in solchen Studien üblicherweise zusätzlich berichtet, wenn sie beobachtet wurden.

(8) Liegen in einem Organ/Gewebe mehrere Tumortypen vor, so ist in der Regel eine gemeinsame Betrachtung zu wählen. In begründeten Einzelfällen (z. B. Humanrelevanz nur eines Tumortyps) ist jedoch eine getrennte Betrachtung angezeigt.

(9) Liegen in einem Organ gutartige und bösartige Tumoren vor, so wird deren Inzidenz in der Regel addiert. Eine Addition verschiedener Tumortypen in einem Tier erfolgt jedoch nicht, da sonst eine Überschreitung der Gesamtinzidenz (bezogen auf das Organ > 100 %) eintreten kann. Liegen Hinweise darauf vor, dass z. B. eine Malignisierung eines gutartigen Tumors beim Menschen unwahrscheinlich ist, kann begründet auf eine entsprechende Addition verzichtet werden.

3.2 Auswahl eines "point of departure"

(1) Der "point of departure" (POD: Ausgangspunkt für weitere Schritte der Risikoabschätzung) ist eine definierte Expositionshöhe mit Risikozuordnung auf der Konzentrations-Risiko-Funktion für eine Substanz. Der POD liegt auf oder nahe bei der Expositionshöhe (Konzentrationsbereich), zu der aus epidemiologischen oder aus tierexperimentellen Beobachtungen Daten über das Auftreten von Krebshäufigkeiten vorliegen. Für den POD wird das Risiko als Krebsinzidenz in Prozent der zugehörigen Konzentration (mg/m³) gegenübergestellt. Der POD ist ein normalisierter Wert. Unter "Normalisierung" ist die Umrechnung auf Lebens(arbeits-)zeitexposition (vgl. Abschnitt 4.4), ggfs. die Pfad-zu-Pfad-Extrapolation auf den Inhalationspfad (vgl. Abschnitt 4.2) und die Berücksichtigung der Hintergrundinzidenz (vgl. Abschnitte 3.35 (3); 3.36) in der vorgegebenen Weise zu verstehen. Der POD dient als Startpunkt für eine Extrapolation oder zu Vergleichszwecken; somit ist die T25 je nach Vergleichsebene bereits als Humanäquivalent anzugeben (hT25) oder auf der Ebene des Tierexperiments zu nutzen. Die Randbedingungen der Anwendung einer T25 sind jeweils präzise auszuweisen.

(2) Bei hinreichender Qualität der Beobachtungsdaten ist der POD als "Benchmarkkonzentration" bzw. Benchmarkdosis auszuweisen. Dabei ist der zentrale Schätzwert (BMD) und nicht der 95-Prozent-Vertrauensbereich (BMDL)8 heranzuziehen.9 Der POD dient als Startpunkt für eine Extrapolation oder zu Vergleichszwecken; somit ist die Benchmarkdosis je nach Vergleichsebene bereits als Humanäquivalent anzugeben (hBMD)10 oder auf der Ebene des Tierexperiments zu nutzen. Die Randbedingungen der Anwendung einer Benchmarkdosis sind jeweils präzise auszuweisen.

Die Kriterien für eine ausreichende Qualität der Daten zur Modellierung nach dem Benchmark-Verfahren sind gesondert festzulegen (vgl. Abschnitt 3.4). Der Faktor zwischen BMD und BMDL gibt auch eine Aussage zur Qualität der vorgenommenen Modellierung (Anpassungsgüte der Modellfunktion an die vorliegenden experimentellen Daten). Insofern kann bei Berechnung der BMDL dieser Faktor auch (neben anderen Kriterien) für die Beurteilung der Frage herangezogen werden, ob das Benchmark-Verfahren im konkreten Fall überhaupt zur Anwendung kommen sollte.

Die Auswahl des BMD statt des BMDL beinhaltet möglicherweise einen gewissen Fehler (da nicht ausgeschlossen werden kann, dass die ExpositionsRisiko-Beziehung durch den BMDL korrekter beschrieben wird). Die Wahl des BMD erscheint jedoch begründet: 1) wegen der Analogie zur T25 bei schlechterer Datenlage (T25 ist ebenfalls ein zentraler Schätzwert ohne Vertrauensbereich), 2) wegen des – nach der Extrapolation in den interessierenden Konzentrationsbereich – nur geringen möglichen Fehlers (bei großer Abweichung zwischen BMD und BMDL würde dies gegen die Anwendung des Benchmarkverfahrens sprechen), 3) da durch die Linearisierung im Bereich unterhalb der BMD als POD in den meisten Fällen ohnehin ein konservatives Extrapolationsverfahren gewählt wird.

Zur Umrechnung einer Benchmarkdosis auf eine äquivalente Humanexposition vgl. Abschnitt 4.

(3) Die "Benchmark-Response" (BMR11 ) beim POD ist aus Gründen der Vergleichbarkeit in der Regel auf 10 % zu setzen. Abweichend kann (nur) dann eine BMD5 als POD herangezogen werden, wenn die BMD10 noch im beobachteten Bereich liegt. Eine BMD1 kann nur dann als POD herangezogen werden, wenn die BMD5 noch im beobachteten Bereich liegt.

In vielen Fällen gibt es keine starken Abweichungen im angenommenen Risiko, wenn der T25 mit der BMD10 unter Korrektur (lineare Umrechnung) des Risikoniveaus verglichen wird (vgl. Anhang zu EC, Technical Guidance Document, 2005). Je nach Verlauf der Konzentrations-Risikobeziehung sind jedoch Abweichungen möglich. Deshalb und wegen der kompletteren Beschreibung des abgeleiteten Verlaufs der Konzentrations-Risikobeziehung im experimentellen Bereich wird der Anwendung des Benchmark-Verfahrens der Vorzug gegeben. Zu Beispielen vgl. Abschnitt 5.2.

Eine Fortführung der Modellierung zwischen BMD10 und BMD0,1 (Response von 10 % oder 1 Promille) wird im vorliegenden Leitfaden für den Fall einer mechanistisch begründeten Nichtlinearität bei guter Datenlage eingesetzt (vgl. Abschnitt 5.2). Liegen keine hinreichenden Gründe für Nichtlinearität vor, so wird die Modellierung mit der Benchmarkmethode nur für den experimentellen Bereich bis zu einer BMD10 als POD vorgenommen. In der früheren Vorgehensweise der U.S.EPA wurde das linearisierte Multistage (LMS10) -Modell herangezogen. Dieses Verfahren ist praktisch identisch mit einer Modellierung mit dem Multistage-Modell im experimentellen Bereich und der Fortführung der modellierten Funktion in den Niedrigrisikobereich (z. B. bei BMR 1:1.000). Beim EPA-Konzept wird jedoch der 95-Prozent Vertrauensbereich einbezogen.

(4) Ist die Ausweisung einer hinreichend qualifizierten Benchmarkkonzentration nicht möglich, ist die T25 in der Berechnung nach dem Verfahren von Sanner et al. (2001)/Dybing et al. (1997) als POD heranzuziehen.

Die Berechnungsformel zur T25 findet sich im Glossar.

Der T25 wird gegenüber ähnlichen anderen Werten als POD der Vorzug gegeben, wenn das Benchmarkverfahren nicht eingesetzt werden kann, weil
  • dies dem Verfahren der Risikoquantifizierung in verschiedenen Festlegungen zum Risk Assessment der EU entspricht,
  • die in Deutschland früher diskutierte "Steinhoff"-Methode mit der T25 als POD kompatibel ist,
  • sie jedoch nicht auf einen normierten Prozentsatz (25 %) bezogen ist,
  • die LED(10) der U.S.EPA (2005a) wiederum die Anwendung des Benchmark-Verfahrens voraussetzt, was nicht immer hinreichend qualifiziert ist.
Das ED(10)-Verfahren der U.S.EPA basiert ebenfalls auf der Benchmark-Modellierung (ohne Berücksichtigung des Vertrauensbereichs) und ist methodisch identisch zur Ableitung der BMD10. Für die Berechnung eines Referenz MoE nach EU/TGD wird in der Regel der Unterschied zwischen T25 und ED10 linear berücksichtigt, so dass in dem EU-MoE-Ansatz auch die ED10 als POD herangezogen werden kann.

(5) Für Extrapolationen in den regulatorisch interessierenden Bereich unterhalb der beobachteten Inzidenzen, bei denen die Fortsetzung der im Beobachtungsbereich bereits vorliegenden Konzentrations-WirkungsBeziehung (stetige Funktion; vgl. Abschnitt 5.2) angenommen wird, ist die Angabe eines POD formal nicht erforderlich. Dieser sollte aber dennoch zu Vergleichszwecken ausgewiesen werden.

(6) BMD10 bzw. T25 sind für alle humanrelevanten Tumorlokalisationen zu errechnen (zur Auswahl der Tumorlokalisationen und Spezies vgl. Abschnitt 3.1).

(7) Bei Benchmarkmodellierungen mit qualitativ schwachen Daten (vgl. Abschnitt 3.3) ist es sinnvoll, sowohl die Berechnung des T25 wie auch der BMD10 vorzunehmen, um die Auswirkungen der Unsicherheit der jeweiligen Entscheidung zu erkennen: ggf. liegen die nach den jeweiligen Verfahren ermittelten POD nahe beieinander oder zeigen deutliche Diskrepanzen. Die entsprechende Information ist zu dokumentieren.

Für Beispiele vgl. Abschnitt 5.2 (Fall B)

3.3 Anwendung des Benchmarkverfahrens

(1) Die für die Kurvenanpassung auszuwählenden Modelle sollten den mechanistischen Vorstellungen zur Kanzerogenese nicht widersprechen. Deshalb wird oft das "Multistage-Model" (oder -Funktion) herangezogen, das dem Mehrstufenmodell der Krebsentstehung entspricht. Die Gamma-Funktion passt jedoch ebenfalls zu diesem mechanistischen Verständnis. Multistage- oder Gamma-Funktion sind demnach bevorzugt zur Modellierung mit dem Benchmarkverfahren im experimentellen Bereich heranzuziehen. Andere Modelle sollten jedoch nicht ausgeschlossen werden, wenn sie eine deutlich bessere Anpassung an die Daten ermöglichen. Das "quantal lineare" Modell der BMDS sollte jedoch bei quantalen Daten (bei Fallzahlen zur Kanzerogenität zutreffend) nach einer Empfehlung der EFSA nicht gewählt werden12 .

Es stehen unterschiedliche Software-Produkte für Modellierungen der Benchmark zur Verfügung. Insbesondere ist die BMDS der U.S.EPA13 zu nennen. Stattdessen ist auch die Verwendung von PROAST des Niederländischen "National Institute for Public Health and the Environment"14 möglich. Die Abschneidekriterien und Anwendungsregeln werden im Folgenden jedoch nur auf BMDS bezogen. Sollte PROAST für die Modellierung herangezogen werden, sind die hierbei herangezogenen Parameter und Abschneidekriterien zu dokumentieren.

Bei der BMDS liegt ein entscheidendes Kriterium bei der Auswahl des besten Modells in dem niedrigsten AIC-Wert (AIC: Akaike's Information Criterion für die Bewertung der Regressionsanpassung).

Bei erheblichen Diskrepanzen zwischen zulässigen Ergebnissen ist ein Durchschnitt dieser Werte (BMD bzw. BMDL) zu bilden (insbesondere bei PROAST relevant). Diese Durchschnittsbildung erfolgt zunächst ungewichtet, bis zusätzliche Maßstäbe für eine Gewichtung etabliert sind (Davis et al., 2011; EFSA, 2009).

(2) Wird das Benchmarkverfahren für die Quantifizierung von Effektschwellen bei nichtkanzerogenen Effekten genutzt, ist in der Regel die BMDL15 statt der BMD für die Bewertung heranzuziehen. Die Entscheidung bei der Modellauswahl verläuft analog dem Vorgehen bei kanzerogenen Effekten (vgl. (1)).

3.4 Mindestanforderungen an die Datenqualität für Anwendung des Benchmarkverfahrens

(1) Zur Durchführung des Benchmarkverfahrens sollten in der Regel mindestens die Daten zur Kontrollgruppe und zwei Dosisgruppen vorliegen.

In Annex XI zum TGD der EU wird anhand einiger Beispiele eine Abwägung zwischen T25 und BMD05 vorgenommen. Dabei wurden drei Dosisgruppen gefordert. Dieses Kriterium ist jedoch nicht erforderlich, da eine unzureichende Datenlage über andere Kriterien ausreichend erfasst ist. Eine schlechte Modellierung mit zulässigen Modellen führt aufgrund der zu erwartenden ungenügenden Qualität der statistischen Auswertung indirekt zur Entscheidung gegen das Benchmarkverfahren.

(2) Unterscheidet sich die Tumorhäufigkeit in allen Dosisgruppen nicht oder nur unwesentlich (Plateaueffekt), ist die Anwendung des Benchmarkverfahrens nicht sinnvoll.

Auch der Plateaueffekt wird üblicherweise durch den schlechten Modellfit bereits berücksichtigt und ist daher kein notwendigerweise explizites Kriterium, ist jedoch eine hilfreiche Information, da so auf Basis der optischen Bewertung bereits ein Ausschluss erfolgen kann.

(3) Gibt es nur eine Dosisgruppe außer der Kontrolle, bei der die Effektstärke deutlich über dem BMR liegt, ist das Benchmarkverfahren nicht sinnvoll anwendbar.

In diesem Fall liegen nur zwei Punkte vor, so dass eine lineare Verknüpfung erfolgt (T25-Verfahren). Liegt die Dosisgruppe nahe beim gesuchten BMR und ist das Ergebnis signifikant, kann der entsprechende Punkt statt des T25-response direkt als POD herangezogen werden. Dies schließt nicht aus, dass für die Extrapolation – ausgehend von diesem POD – schließlich bei qualifizierten Hinweisen auf eine Sublinearität eine Knickfunktion herangezogen wird (vgl. Abschnitt 5.2).

(4) Solche Benchmarkmodelle sind zu verwerfen, die einen zu kleinen p-Wert (p < 0,05) erbringen. Ebenfalls sind Modelle zu verwerfen, bei denen BMD/BMDL > 10 ist (hohe Unsicherheit der BMD). Modelle deren "scaled residuals" im Bereich der BMR außerhalb -2 bis +2 liegen, sind ungeeignet. Verbleiben mehrere zulässige Benchmarkkalkulationen, so sind diese nur geeignet, wenn die Spanne der ausgewählten BMDL ≤ 10 ist (ähnlich qualifizierte Modelle ergeben eine große Spanne möglicher Antworten und erlauben deshalb keine eindeutige Aussage).

Dieses letztere Kriterium ist nicht statistisch begründet entspricht aber dem Vorgehen der EFSA.

Bei der Benchmarkmodellierung nach BMDS erfolgt ein "Goodness of fit"-Test. Dabei werden die "log-likelihood-Werte" verglichen:

A) von "reduced" vs. "full model". Dieser Test prüft, ob überhaupt eine Dosis-Wirkungsbeziehung vorliegt. Ein p-Wert von ≤ 0,05 gilt als Akzeptanzkriterium;

B) von "fitted model" vs. "full model". Dieser Test prüft, ob das Modell den Kurvenverlauf hinreichend gut schätzt. Ein p-Wert von > 0,05 wird entsprechend dem Vorgehen der EFSA als Akzeptanzkriterium für das "fitted model" gesetzt.

(5) Unter den nach Prüfung der Auswahlkriterien gemäß (4) verbleibenden geeigneten Benchmarkmodellierungen wird abgewogen: bei Verwendung von BMDS wird das Modell mit der minimalen BMDL demjenigen mit dem niedrigsten AIC-Wert gegenübergestellt, zusätzlich geprüft, ob ein Multistage- oder Gamma-Modell eine geeignete Modellierung ergibt und zugleich geprüft, ob die optische Anpassung zu einem plausiblen Ergebnis führt; es erfolgt dann eine Abwägung und Begründung der Auswahl.

Die Protokolle der BMDS-Berechnung sind, wenn Unsicherheiten in der Auswahl bestehen, detailliert zu prüfen, ob durch die Parameterfixierung künstliche Einschränkungen eingetreten sind (z. B. keine ausgewiesenen p-Werte), die die Bewertung des Ergebnissen erschweren.

(6) In Zweifelsfällen mit begrenzter Datenqualität ist nach Abschnitt 3.2 (7) vorzugehen. D. h., es ist zwischen T25 und dem Benchmarkverfahren abzuwägen. Die Begründung für die letztlich gewählte Verfahrensweise ist zu dokumentieren.

Für ein Beispiel vgl. Abschnitt 5.2 (Fall B)

(7) Für die Modellierung dürfen nur dann Dosierungen weggelassen werden, wenn mehrere Dosierungen einen Plateaueffekt charakterisieren oder im Hochdosisbereich sogar abfallende Inzidenzen beobachtet werden oder der Verlauf durch eine nahezu 100%ige Inzidenz begründet ist.

Ein Plateaueffekt, spezifische Veränderungen bei Dosierungen nahe der maximal tolerierbaren Dosis oder eine ca. 100%ige Inzidenz lassen keine Differenzierung mehr zu, so dass diese Information auch die Expositions-Risiko-Beziehung verzerren kann. In diesem Fall kann die Information zu dieser Gruppe (Hochdosisbereich) vernachlässigt werden. Das Weglassen von Dosisgruppen führt jedoch zu einer Verminderung der Freiheitsgrade bei der Modellierung.

(8) Es werden keine BMD-Kalkulationen weiter genutzt, in denen der p-Wert nicht quantifiziert wurde.

Ein nicht quantifizierter p-Wert ist durch einen Hinweis im Protokoll bei BMDS erkenntlich: "p= not applicable"

3.5 Vorgehen im Falle von Humandaten

Die Einordnung der Rolle epidemiologischer Beobachtungsstudien im Vergleich zum Tierexperiment bei der Quantifizierung von Krebsrisiken am Arbeitsplatz erfolgte bereits in Abschnitt 1.1 und bei der Erläuterung der zu Grunde zu legenden Datenbasis (Abschnitt 1.5 (1)). Zum hier verwendeten Risikobegriff wird auf Abschnitt 1.4 verwiesen.

Die folgenden Hinweise zum Vorgehen setzen eine adäquate epidemiologische Datenlage voraus (für Mindestkriterien vgl. Abschnitt 8.6 dieses Leitfadens).

(1) Bei der Auswahl epidemiologischer Studien ist wie folgt vorzugehen:

  • Die vorhandene epidemiologische Evidenz sollte mittels einer strukturierten, systematischen Literatursuche identifiziert und auf ihre Qualität und Eignung für die Risikobewertung geprüft werden. Prinzipien, die für die Auswahl von arbeitsepidemiologischen Studien zur Durchführung einer Meta-Analyse aufgestellt wurden, sollten hier berücksichtigt werden. Es ist im Einzelfall zu entscheiden, ob mehrere Studien für die Bewertung in einer Meta-Analyse zu einem gepoolten Schätzer zusammengefasst werden können oder ob einzelne Studien separat bewertet werden, um eine Spanne für mögliche Risikoszenarien angegeben zu können.
    Literatur: Blair et al. (1995); Roller et al. (2006), Kap. 5.2; vgl. auch die Diskussion zur Metaanalyse bei granulären biopersistenten Stäuben (Gebel, 2012; 2013; Morfeld, 2013).
  • Generell sind analytische Studiendesigns mit individueller Expositions einschätzung zur Risikobewertung auszuwählen. Sowohl Kohorten- als auch Fall-Kontroll-Studien können dabei zur Risikobewertung herangezogen werden.
    Die in der Arbeitsepidemiologie verwendeten beobachtenden Studiendesigns lassen sich nach absteigendem Evidenzgrad wie folgt ordnen: (1) Kohortenstudie (KS); (2) Fall-Kontroll-Studie (FKS); (3) Querschnittstudie (QS); (4) Ökologische oder Korrelationsstudie.

    Quantitative Expositionsdaten stehen häufiger aus KS zur Verfügung, während FKS in der Regel eine bessere Berücksichtigung von Störeinflüssen ("confounding factors") gewährleisten (weitere Details zu den besonderen Stärken und Schwächen der Studiendesigns siehe Ahrens et al., 2008). In begründeten Ausnahmefällen, z. B. einer in eine Kohorte eingebetteten FKS mit spezifischeren oder genaueren Informationen zu Exposition und/oder Wirkungsendpunkt, kann eine FKS besser für eine Risikoabschätzung geeignet sein als die zugrunde liegende KS.

(2) Zielparameter werden wie folgt berücksichtigt:

  • Generell sind Maße mit Bezug zur Krebsinzidenz denen zur Krebsmortalität vorzuziehen, es sei denn, Inzidenz und Mortalität können aufgrund einer hohen Letalität der Erkrankung (wie z. B. beim Lungenkarzinom) als nahezu identisch angesehen werden.
  • Je feiner die betrachteten Wirkungsendpunkte aufgegliedert werden, umso geringer ist die zahlenmäßige Besetzung der Strata. Es ist also im Einzelfall abzuwägen, ob sich verschiedene Wirkungsendpunkte sinnvoll zusammenfassen lassen, um die statistische Power zu erhöhen (d. h. Zusammenfassung verschiedener verwandter Tumorentitäten zu einer Gruppe), auch wenn sich kausale Faktoren im Einzelnen unterscheiden können, z. B. bei Kopf-Hals-Tumoren oder myeloproliferativen Erkrankungen.
  • Es ist im Einzelfall zu entscheiden, ob "vorgezogene" Wirkungsendpunkte (z. B. biologische Marker), die als notwendige Frühstadien der Kausalkette zur untersuchten Zielerkrankung zugerechnet werden können, in die Bewertung der Studienlage einbezogen werden können. Dies ist besonders dann sinnvoll, wenn derartige frühe klinische Effekte als Warnsignale anzusehen sind.
    Die Berücksichtigung bei der Bewertung erfolgt in der Regel subsidiär, d. h. zur Stützung bei der Auswahl eines POD bei "weight of evidence"-Bewertungen oder bei der Selektion einer Extrapolationsmethode. Warnsignale können die Einführung von Schutzmaßnahmen rechtfertigen.

(3) Bei der Berechnung der Akzeptanz- und Toleranzkonzentrationen kann folgendermaßen vorgegangen werden:

  • Generell wird für die Berechnung der risikobezogenen Konzentrationen ein kumulatives Expositionsmaß verwendet (40 Jahre Arbeitsleben mit durchschnittlicher Exposition). Nur wenn es durch das Wirkprinzip zu begründen ist, kann auf andere Expositionsmaße ausgewichen werden.
  • Ein Punktschätzer für jede Expositionskategorie (z. B. Median, geometrisches Mittel) ist die bevorzugt zu verwendende Angabe.

    Ist lediglich ein Expositionsbereich berichtet worden (z. B. 1-9 ppm-Jahre), so kann für die Berechnung die Bereichsmitte (im Beispiel 5 ppm-Jahre) zugrunde gelegt werden. Konzentrationsangaben in mg/m³ sollten stoffspezifisch auch in ppm umgerechnet werden. Für die Berechnungen der Akzeptanz- und Toleranzkonzentrationen werden 240 Arbeitstage/Jahr und ein Atemvolumen von 10 m³ pro Arbeitstag herangezogen, für den 8h angenommen werden (das Atemvolumen ist abhängig von der Arbeitsbelastung, 10 m³ betrifft eine leichte bis moderate Anstrengung).
    (vgl. Abschnitt 4.6 und van Wijngaarden und Hertz-Picciotto (2004)).
  • Die kumulierten Konzentrationsangaben in ppm-Jahren sind danach auf den Langzeit-Mittelwert über 40 Jahre umzurechnen.
  • Je nach Datenlage sind unmittelbar absolute Risikomaße (z. B. kumulatives Risiko) oder – wenn diese nicht berichtet wurden – Maße des relativen Risikos zur Exposition in Beziehung zu setzen. In der Regel werden Maße wie SMR, SIR, RR oder OR vorliegen. Zur Berechnung des Lebenszeitrisikos der Exponierten können diese relativen Risikoerhöhungen mit einem Schätzwert für das Lebenszeitrisiko der Vergleichsgruppe, z. B. der Allgemeinbevölkerung, multipliziert werden, sofern nicht die ausführliche Sterbetafelmethode angewendet wird.
    Eine geeignete Quelle zur einheitlichen Auswahl des Hintergrundrisikos beim Bezugskollektiv ist z. B. RKI (2011).
  • Das für die Expositionsspannweite berichtete Risikomaß (RR/SIR etc.) kann mit dem kumulierten Expositionswert in einer Regressionsanalyse korreliert werden, was eine Extrapolation in den Hoch- bzw. Niedrigrisikobereich und Aussagen zum Risiko pro Unit-Anstieg (1 ppm) der Exposition ermöglicht. Somit kann das Lebenszeitrisiko in Abhängigkeit von einer gegebenen Expositionshöhe bzw. einem angenommenen Arbeitsplatzgrenzwert geschätzt werden.
  • Nach Subtraktion des Risikos der Nicht-Exponierten (z. B. Allgemeinbevölkerung) wird ein Schätzwert des expositionsbezogenen Exzess-Risikos erhalten.
  • Einschränkungen der Aussagekraft der Ergebnisse sind zu diskutieren.
    Es wird somit ein Vorgehen analog zu Roller et al. (2006) und Goldbohm et al. (2006) vorgeschlagen.

    Einschränkungen der Aussagekraft der Ergebnisse sind z. B. Bias, mögliches residuelles "Confounding", Missklassifikation usw. Die Verwendung von Risikoschätzern, die für "Confounder"-Effekte adjustiert wurden, ist anzustreben. Wegen der Modellabhängigkeit der Adjustierung und zur Abschätzung der Stärke eines möglichen "Confounding", sollten möglichst Berechnungen adjustierter den nicht adjustierten Risiken einander gegenübergestellt werden.

    Inkonsistente oder nicht vorhandene Dosis-Effekt-Beziehungen können in epidemiologischen Studien häufig beobachtet werden. Aber auch in den Fällen, in denen Studienergebnisse lediglich das Vorhandensein eines Ursache-Effekt-Zusammenhangs andeuten, können die Daten berücksichtigt werden. Abweichungen von einer erwarteten Dosis-Effekt-Beziehung und ihre möglichen Ursachen und Konsequenzen für die Risikoextrapolation sind zu diskutieren.

    Es ist zu bedenken, dass das vorgestellte Vorgehen Variationen des Risikos zwischen Individuen aufgrund unterschiedlicher Suszeptibilität ignoriert. Auch ist zu vermuten, dass sich die Zusammensetzung der untersuchten Kohorten hinsichtlich ihrer Morbidität und begleitender Expositionen von der Allgemeinbevölkerung unterscheidet (Healthy Worker Effect), so dass die Ergebnisse nicht repräsentativ für andere Bevölkerungen sein müssen. Vor dem Hintergrund einer Bewertung des Risikos von Arbeitsstoffen und der Festlegung von Grenzwerten zur Verbesserung des Arbeitsschutzes sind diese Überlegungen jedoch von untergeordneter Bedeutung.

    Bei semiquantitativen Expositionsangaben und sonst fehlenden epidemiologischen Daten kann versucht werden, ggf. durch Rückfrage bei den Autoren der Originalpublikationen Einstufungskriterien für Expositionsstufen zu ermitteln und damit eine quantitative Expositionsbewertung vornehmen zu können.

(4) Anpassung der Atemrate und des Atemvolumens/Tag von Umwelt auf Arbeitsplatz: Wird von einer Studie mit Umweltexposition des Menschen ausgegangen (mit 20 m³ Atemvolumen/Tag), muss eine Umrechnung auf 8 h Expositionsdauer pro Tag am Arbeitsplatz vorgenommen werden. Für diesen verkürzten Zeitraum wird dann ein Atemvolumen von 10 m³ unterstellt (Umrechnung über Faktor 2).

( Verweis auf identisches Atemvolumen/d bei Umrechnung aus Tierversuch vgl. Abschnitt 4.2)

(5) Abweichungen vom Default sind in folgenden Fällen möglich:

  • Um die Konsistenz der Ergebnisse unter verschiedenen Voraussetzungen prüfen zu können, können von der kumulativen Exposition abweichende Expositionsmaße (Intensität, Dauer, Expositionsspitzen, Wirkschwelle) je nach Wirkprinzip ebenfalls Berücksichtigung finden, falls entsprechende Schätzer in den bewerteten Artikeln dokumentiert wurden.
  • Querschnittstudien und ökologische Studien sollten in aller Regel bestenfalls als Ergänzung zu qualifizierteren epidemiologischen Daten und/oder zu tierexperimentellen Daten herangezogen werden ("weight of evidence"-Betrachtung) und erlauben als eigenständige Basis in der Regel keine hinreichend qualifizierte Risikoquantifizierung.

(6) Für die Extrapolation in den Niedrigrisikobereich wird auf das Vorgehen bei tierexperimentell-toxikologischen Daten verwiesen (vgl. Abschnitt 5). Humandaten sollten nach Möglichkeit zur Überprüfung der Plausibilität der Extrapolationsfaktoren bei der Übertragung von Tierexperimenten auf den Menschen herangezogen werden.

3.6 Umgang mit der Hintergrundinzidenz

(1) Entsprechend dem Standardvorgehen beim T25- und beim Benchmark-Verfahren (nach der Software der U.S.EPA oder der PROAST-Software) ist in der Regel die "extra risk"-Kalkulation heranzuziehen.

Die Konvention, das "extra risk" zu wählen, ist aus toxikologischer Sicht nicht gut begründet, wird jedoch als Standardvorgehen akzeptiert, da (i) in der Regel die Abweichungen bei niedriger Hintergrundrate gering ausfallen, (ii) eine Übereinstimmung mit vielen älteren Unit-Risk-Berechnungen besteht, (iii) so eine Übereinstimmung mit dem T25-Verfahren und (iv) ebenfalls mit der traditionellen Vorgehensweise beim Multistage-Verfahren gewährleistet ist.

3.7 Risikoquantifizierung durch Ausweisung der T25

(1) Die Festlegung eines POD durch die Ausweisung des T25-Wertes nach dem Verfahren von Sanner et al. (2001) und Dybing et al. (1997) erfordert keine Modellierung der Dosis-Wirkungs-Beziehung im experimentellen Bereich. DieT25 wird durch lineare Interpolation bestimmt. Dieses Verfahren ist regelmäßig heranzuziehen, wenn eine qualifizierte Benchmarkberechnung nicht möglich ist.

Zur näheren Definition der T25 vgl. Glossar.

(2) Wenn ausschließlich der Inhalationspfad relevant ist (für Arbeitsplatzgrenzwerte der Fall), wird der T25-Wert als Luftkonzentration (mg/m³ bzw. ppm) ausgedrückt.

Zur weiteren Normierung der T25 auf das Expositionsmuster am Arbeitsplatz vgl. Abschnitt 4.2.

(3) Details zur Vorgehensweise bei diesem T25-Verfahren sind der zitierten Literatur (ECHA, 2012b) zu entnehmen. Die wichtigsten Punkte sind:

  • Als Ausgangspunkt wird die niedrigste Dosisgruppe gewählt, die eine signifikant erhöhte Tumorinzidenz aufweist.
    Das Kriterium der Signifikanz ist entweder auf statistischer ("Fisher Exact Test" zum Vergleich der Dosis- mit der Kontrollgruppe) oder auf biologischer Basis festzulegen. Analog FDA (2001) wird die Verwendung eines Signifikanzniveaus von p < 0,05 für seltene Tumore bzw. Tumore mit einer Spontaninzidenz ≤ 10 % oder p < 0,01 für Tumore mit höherer Spontaninzidenz als 10 % vorgesehen. Ggf. sind neben der experimentellen Kontrollgruppe auch die Daten der historischen Kontrolle vergleichend heranzuziehen (vgl. zu historischen Kontrollinzidenzen z. B. Derelanko and Hollinger (2002)).
  • Von der Tumorinzidenz in der behandelten Gruppe wird die Spontaninzidenz in der Kontrollgruppe abgezogen.
    Eine Korrektur für aufgetretene Mortalität wird im Allgemeinen nicht vorgenommen, so dass bei hoher Mortalität in der betrachteten Dosisgruppe die damit verbundene erhöhte Unsicherheit des T25-Wertes zu diskutieren oder die nächst niedrigere Dosisgruppe zu wählen ist. Hohe Mortalität kann auch bedeuten, dass die Studie nicht mehr für eine Risikoquantifizierung herangezogen werden kann (vgl. Abschnitt 8, Minimalkriterien).
  • T25-Werte werden in der Regel getrennt für Spezies, Geschlecht und Organ/Tumortyp berechnet (vgl. Abschnitt 3.1 (6)).
    Eine Zusammenfassung von Tumortypen/Organen/Geschlechtern kann mit Begründung erfolgen (vgl. Abschnitt 3.1(6)).
  • Eine gegenüber der Standard-Lebensspanne der Versuchsspezies verkürzte Expositionsdauer und verkürzte Beobachtungszeit wird korrigiert.
    Die gegenüber der Standard-Lebensspanne (w in Wochen) der Versuchsspezies verkürzte Expositionsdauer (w1 in Wochen) und verkürzte Beobachtungszeit (w2 in Wochen) wird durch Multiplikation mit dem Faktor (w1 / w)x(w2 / w) korrigiert (vgl. Abschnitt 4.5);
  • Gegenüber den gewählten Standardwerten abweichende Expositionsschemata werden berücksichtigt.
    Dies erfolgt durch lineare Umrechnung etwa bei Dosierungen/Tag, Expositionstage/Woche, sowie Expositionsdauer/Tag bei Inhalation.
  • Für die Risikoquantifizierung wird der niedrigste, als humanrelevant (in Bezug auf Spezies/Organ/Tumortyp) erachtete T25-Wert verwendet (vgl. auch Abschnitt 3.1).
    Diese Ausführungen sind nicht in voller Übereinstimmung mit der üblichen Vorgehensweise nach EU: Der T25-Wert wurde ursprünglich als körpergewichtsbezogene Stoffdosis konzipiert und somit in mg pro kg Körpergewicht und Tag (mg/kg x d) angegeben. Liegen mehrere Studien vor, die nicht alle Schlundsonden benutzten, sondern Tiere z. B. über Trinkwasser, Futter oder Atemluft exponierten, wird die Umrechnung der Exposition auf die körpergewichtsbezogene Dosis als gemeinsame Vergleichsbasis vorgeschlagen (EC, 1999). Im vorliegenden Fall ist jedoch die Ausweisung einer Konzentrationsangabe, z. B. in mg/m³, erforderlich.
    Wenn keine Pfad-zu-Pfad-Übertragung zulässig ist (vgl. Abschnitt 4.4), dann kann der entsprechende (orale oder dermale) Ausgangswert für eine inhalativeT25 nicht verwendet werden.

(4) Die T25 wird mit den Faktoren, wie in Abschnitt 4 spezifiziert, in ein Humanäquivalent umgerechnet (hT25).

 

 


8 Begrifflichkeit zum Benchmarkverfahren vgl. Glossar und EPA, 2000
9 Im Folgenden wird übergreifend von BMD ("Benchmarkdosis") oder BMDL gesprochen, auch wenn es sich in diesem Falle um Luftkonzentrationen (BMC, BMCL) handelt
10 Zur Bedeutung des Terminus Humanäquivalent und zur Umrechnung vgl. Abschnitt 4
11 Abkürzungen beim Benchmarkverfahren: vgl. Glossar
12 http://www.epa.gov/ncea/bmds/
14 http://www.rivm.nl/en/Library/Scientific/Models/PROAST
15 Abkürzungen beim Benchmarkverfahren: vgl. Glossar

 

 

Webcode: M1129-55