Studien richtig lesen

Studiendesigns, Statistik und ein praktischer Walkthrough an einer echten Phase-2-RCT

StudiendesignRCTMetaanalysep-WertKonfidenzintervall

Wer Aussagen über Wirksamkeit oder Sicherheit selbst beurteilen möchte, kommt am Lesen wissenschaftlicher Studien nicht vorbei — Sekundärquellen wie Blogartikel, Foren oder Social Media verkürzen, vereinfachen oder verzerren die Originalbefunde fast immer. Dieser Hub vermittelt zuerst die Grundlagen (Evidenzpyramide, Studiendesigns, statistische Schlüsselbegriffe), beschreibt die häufigsten Fehlinterpretationen und führt dann konkret durch eine Beispielstudie: die Phase-2-RCT zu Retatrutide aus dem New England Journal of Medicine (2023). Ziel ist, dass du nach dem Lesen jede Originalpublikation systematisch in 30 Minuten einordnen kannst — ohne Statistikstudium.

Die Evidenzpyramide — nicht alle Studien sind gleich

Wissenschaftliche Evidenz hat eine klare Hierarchie, oft als Pyramide dargestellt. An der Spitze stehen Metaanalysen, die mehrere randomisierte kontrollierte Studien (RCTs) statistisch zusammenfassen — sie liefern die belastbarste Evidenz, weil zufällige Schwankungen einzelner Studien herausgemittelt werden. Darunter folgen systematische Reviews, einzelne RCTs, Kohortenstudien (beobachtend, ohne Intervention), Fallkontrollstudien und Fallserien. An der Basis stehen Tierstudien, Zellkultur-Experimente (in vitro) und mechanistische Computer-Modelle. Je weiter unten in der Pyramide, desto vorsichtiger muss die Schlussfolgerung formuliert werden: Eine Wirkung an Mäusezellen ist kein Beweis für eine Wirkung am Menschen, sondern ein Hinweis darauf, dass eine kontrollierte Humanstudie sich lohnen könnte.

Studiendesigns im Überblick

Der doppelblinde randomisierte RCT gilt als Goldstandard für Wirksamkeitsfragen: Teilnehmer werden zufällig in Behandlungs- und Placebogruppe eingeteilt (Randomisierung), und weder Teilnehmer noch Untersucher wissen, wer was erhält (Blinding). Beides zusammen schützt vor Selektions- und Erwartungs-Bias. Kohortenstudien beobachten Gruppen über Zeit — gut für Langzeiteffekte, anfällig für Confounding (Störvariablen). Querschnittsstudien erfassen den Zustand zu einem Zeitpunkt und können nichts über Kausalität aussagen. Fallserien beschreiben einzelne Patienten ohne Kontrollgruppe — hilfreich für seltene Ereignisse, aber nicht zum Beleg eines Therapieeffekts. In-vitro-Studien testen an Zellkulturen: mechanistisch wertvoll, aber Wirkungen lassen sich nicht direkt auf den Organismus übertragen, weil Verteilung, Abbau und Wechselwirkungen mit anderen Geweben fehlen.

Schlüsselbegriffe: p-Wert, Konfidenzintervall, Effektgröße

Der p-Wert gibt die Wahrscheinlichkeit an, dass das beobachtete Ergebnis (oder ein extremeres) zufällig entstanden wäre, wenn es in Wirklichkeit keinen Effekt gibt. p < 0,05 ist die konventionelle Signifikanzschwelle, sagt aber nichts darüber aus, wie groß oder klinisch relevant der Effekt ist. Das 95-%-Konfidenzintervall (KI) zeigt den Bereich, in dem der wahre Effekt mit hoher Wahrscheinlichkeit liegt — breite Intervalle signalisieren Unsicherheit, schmale Intervalle Präzision. Wenn das KI die Null überquert (also auch keinen Effekt umfasst), ist das Ergebnis nicht signifikant. Die Effektgröße — etwa absolute Risikoreduktion, Number Needed to Treat (NNT) oder Cohens d — quantifiziert die praktische Bedeutung. Eine Studie mit 100.000 Teilnehmern kann statistisch hochsignifikante p-Werte für klinisch belanglose Effekte produzieren; Statistik ohne Effektgröße ist daher wertlos.

Endpunkte: primär, sekundär, surrogat

Jede gut geplante Studie hat einen vorab festgelegten primären Endpunkt — die Hauptfrage, an der sie sich messen lassen will. Sekundäre Endpunkte sind unterstützende Beobachtungen; ihre Resultate haben weniger statistisches Gewicht, weil je mehr Endpunkte gemessen werden, desto höher die Wahrscheinlichkeit zufälliger "signifikanter" Ergebnisse (Multiples-Testen-Problem). Besonders kritisch sind Surrogat-Endpunkte: messbare Marker, die für ein eigentliches Ziel stehen sollen — etwa LDL-Cholesterin als Surrogat für Herzinfarkte oder HbA1c als Surrogat für diabetische Folgeschäden. Surrogate verkürzen Studien dramatisch, sind aber nur dann valide, wenn der Marker nachweislich mit dem klinischen Ergebnis korreliert. Wer "Wirkstoff X senkt Blutwert Y" liest, sollte immer prüfen: Folgt aus Y wirklich der gewünschte klinische Nutzen?

Bias und Confounder — die unsichtbaren Verzerrungen

Bias ist eine systematische Verzerrung, die das Ergebnis in eine Richtung schiebt. Selektions-Bias: Teilnehmer sind nicht repräsentativ (etwa nur junge, gesunde Männer). Performance-Bias: Eine Gruppe wird unbewusst anders behandelt. Detection-Bias: Ergebnisse werden je nach Gruppe unterschiedlich genau erfasst. Attrition-Bias: Wer die Studie abbricht, ist anders als wer durchhält. Publication-Bias: Negative Studien werden gar nicht erst veröffentlicht. Confounder sind dagegen Drittvariablen, die sowohl die Intervention als auch das Ergebnis beeinflussen — klassisches Beispiel: Mehr Eiscreme-Verkauf korreliert mit mehr Ertrunkenen, beides wird aber von einem Confounder (Sommer/Hitze) verursacht. Randomisierung neutralisiert die meisten Confounder im RCT; Beobachtungsstudien müssen sie statistisch herausrechnen, was nie vollständig gelingt.

Fehler 1: Tierdosis ≠ Menschendosis — die HED wird ignoriert

Eine Rattenstudie zeigt einen Effekt bei 500 µg/kg — viele rechnen das direkt auf ihr Körpergewicht hoch und landen so bei vielfachen der pharmakologisch sinnvollen Menge. Das ist ein grundlegender Irrtum. Kleine Säuger haben einen deutlich schnelleren Stoffwechsel und bauen Substanzen viel rascher ab als Menschen; eine lineare Hochrechnung über das Körpergewicht überschätzt die nötige Dosis erheblich. Für die korrekte Umrechnung wird die Human Equivalent Dose (HED) genutzt, die auf dem Körperoberflächen-Verhältnis basiert. Korrekturfaktoren laut FDA-Leitlinie: Maus ≈ 12,3 · Ratte ≈ 6,2 · Hund ≈ 1,8 · Mensch = 1. Eine Rattendosis von 10 mg/kg entspricht damit am Menschen rund 1,6 mg/kg — also nur etwa einem Sechstel der naiv hochgerechneten Dosis.

Fehler 2: Anekdoten sind keine Studien — und Injektionen haben einen starken Placebo-Effekt

„Ich habe Wirkstoff X genommen und meine Symptome waren nach einer Woche weg" — solche Berichte finden sich zuhauf in Foren und sozialen Medien und werden oft wie Studienergebnisse behandelt. Einzelberichte sind aber anfällig für viele Verzerrungen: Man weiß nicht, was sonst zur Verbesserung beigetragen hat (Ruhe, andere Behandlungen, natürliche Heilung, Regression zur Mitte), und positive Erfahrungen werden weit häufiger berichtet als neutrale (Confirmation-Bias der Community). Besonders tückisch: Der Placebo-Effekt ist bei Injektionen nachweislich stärker als bei oralen Präparaten — das Ritual der Spritze, die Erwartungshaltung und die erhöhte Körperwahrnehmung erzeugen messbare Verbesserungen ohne jede pharmakologische Wirkung. Studien zu Schmerzbehandlung zeigen Placebo-Response-Raten von 30–50 %. Erst eine randomisierte Studie mit echter Placeboinjektion kann zeigen, ob ein Effekt darüber hinausgeht.

Fehler 3: Verabreichungsform und Frequenz aus der Studie werden ignoriert

Eine Studie, in der eine Substanz per 24-stündiger Dauerinfusion in die Vene verabreicht wird, sagt nichts darüber aus, was eine einmalige subkutane Injektion am Morgen bewirkt. Verabreichungsweg (intravenös, subkutan, intranasal, oral, topisch), Dosierfrequenz und -dauer bestimmen maßgeblich, welche Wirkstoffkonzentrationen überhaupt im Zielgewebe ankommen — die sogenannte Pharmakokinetik. Viele ältere Studien — besonders aus präklinischen Modellen — verwenden kontinuierliche Infusionen oder mehrfach tägliche intraperitoneale Injektionen bei Nagern, also Protokolle, die für Selbstanwender schlicht nicht reproduzierbar sind. Wer eine einmal wöchentliche Injektion erwartet, die dasselbe Konzentrationsprofil erzeugt wie eine achtstündige IV-Infusion, liegt pharmakologisch falsch. Beim Lesen jeder Studie ist deshalb der Methods-Abschnitt zur Verabreichung ebenso wichtig wie das Ergebnis.

Red Flags: Wann sollte man skeptisch sein?

Kritisch prüfen: keine Kontrollgruppe oder kein Placebo · keine Randomisierung · sehr kleine Stichprobe (n < 20) ohne explizite Power-Berechnung · ausschließlich In-vitro- oder Tierdaten als Beleg für Humanwirkung · finanzielle Interessenkonflikte des Sponsors mit positiven Effektgrößen · fehlendes Peer-Review (Preprints sind kein Endpunkt) · Überinterpretation mechanistischer Daten ("aktiviert Pathway X" ≠ "wirkt klinisch") · ausschließlich sekundäre oder Surrogat-Endpunkte als Hauptergebnis · "post-hoc subgroup analysis" als zentrales Argument · Publikation in obskuren Predatory-Journals ohne erkennbare Qualitätskontrolle. Auch bekannte Journals schützen nicht vor methodischen Schwächen — selbst NEJM, Lancet und JAMA mussten schon Studien zurückziehen. Die eigene kritische Prüfung der Methodik ist unverzichtbar.

Walkthrough · Schritt 1: Die Studie identifizieren

Als Beispiel nehmen wir eine reale, gut zugängliche Phase-2-Studie: Jastreboff AM, Kaplan LM, Frías JP et al. „Triple-Hormone-Receptor Agonist Retatrutide for Obesity — A Phase 2 Trial." New England Journal of Medicine 2023; 389(6): 514–526. DOI: 10.1056/NEJMoa2301972. PMID: 37356060. Bevor man inhaltlich liest, prüft man drei Dinge: (1) Journal-Reputation — NEJM ist eines der vier Top-Medizinjournals weltweit mit hartem Peer-Review (positiv). (2) Erscheinungsdatum — Juni 2023, also aktuell, aber bereits einige Monate Diskussion in der Fachcommunity (positiv). (3) Studientyp aus dem Titel — „Phase 2 Trial" signalisiert eine kontrollierte klinische Studie an Patienten, kein bloßes Tiermodell, und Phase 2 prüft Wirksamkeit und Dosis (nicht nur Sicherheit wie Phase 1). Schon der Titel + Journal + Phasenangabe sagt: Diese Daten sind methodisch ernst zu nehmen, aber Phase 2 ist keine Zulassungsstudie — die kommt erst in Phase 3.

Walkthrough · Schritt 2: Abstract gezielt lesen

Ein gutes Abstract enthält Background, Methods, Results, Conclusions in genau dieser Reihenfolge. Im Retatrutide-Abstract finden sich: Background — Retatrutide ist ein Tripel-Agonist an GIP-, GLP-1- und Glucagon-Rezeptoren, getestet zur Gewichtsreduktion. Methods — randomisiert, doppelblind, placebokontrolliert, Phase 2, 48 Wochen, Erwachsene mit Adipositas (BMI ≥ 30) oder Übergewicht plus mindestens eine gewichtsbezogene Komorbidität (BMI ≥ 27). Results — bei der höchsten Dosis (12 mg wöchentlich) durchschnittlich −24,2 % Körpergewicht nach 48 Wochen vs. +2,1 % unter Placebo. Wichtig: Abstract-Zahlen geben den punktuellen Mittelwert an — Konfidenzintervalle, Streuung und Drop-out-Raten stehen nur im Volltext. Schon hier eine Warnung: −24,2 % ist eine starke Effektgröße, aber die Stichprobe ist klein (338 Teilnehmer auf sieben Arme verteilt) und die Dauer kurz für ein chronisches Adipositas-Problem.

Walkthrough · Schritt 3: Studiendesign analysieren

Im Methods-Abschnitt prüft man systematisch sechs Punkte. (1) Randomisierung: Computer-generiert, stratifiziert nach BMI und Geschlecht — gut, schützt vor Selektions-Bias. (2) Blinding: Doppelblind mit identisch aussehenden Pen-Injektoren — schützt vor Erwartungs-Bias. (3) Kontrolle: Echte Placebo-Injektion (Lösungsmittel ohne Wirkstoff) — der Goldstandard. (4) Studienarme: 7 Gruppen — Placebo, plus sechs Retatrutide-Dosierungen (1 mg, 4 mg in zwei Titrationsschemata, 8 mg in zwei Schemata, 12 mg). Mit n = 338 ergibt das ca. 47 Teilnehmer pro Arm — für die feinen Dosis-Vergleiche unterhalb der Hauptaussage statistisch grenzwertig. (5) Dauer: 48 Wochen Therapie + 12 Wochen Nachbeobachtung. (6) Sites: 11 Studienzentren in den USA — also ausschließlich US-amerikanische Population, Übertragbarkeit auf europäische Verhältnisse begrenzt prüfbar.

Walkthrough · Schritt 4: Ein- und Ausschlusskriterien

Diese Sektion entscheidet, auf wen die Ergebnisse anwendbar sind — und auf wen nicht. Eingeschlossen: Erwachsene 18–75 Jahre · BMI ≥ 30, oder BMI ≥ 27 mit mindestens einer gewichtsassoziierten Komorbidität (Hypertonie, Dyslipidämie, kardiovaskuläre Erkrankung, obstruktive Schlafapnoe). Ausgeschlossen: Diabetes Typ 1 oder 2 · Gewichtsänderung > 5 kg in den letzten 3 Monaten · bariatrische Chirurgie · Schwangerschaft/Stillzeit · klinisch relevante kardiovaskuläre Ereignisse in den letzten 6 Monaten · aktive maligne Erkrankung · Einnahme bestimmter Begleitmedikamente. Konsequenz: Die Aussage „Retatrutide reduziert Körpergewicht um 24 %" gilt nur für nicht-diabetische adipöse Erwachsene mit stabilem Gewicht. Über Diabetes-Patienten sagt diese Studie nichts — dafür gibt es separate Phase-2-Daten in einer anderen Publikation.

Walkthrough · Schritt 5: Intervention und Endpunkte

Intervention: Retatrutide oder Placebo, einmal wöchentlich subkutan, mit dosisspezifischer Auftitrierung (Start bei 2 mg oder 4 mg, dann monatliche Erhöhung bis zur Zieldosis). Subkutan-wöchentlich entspricht der praktischen Anwendung, die Daten sind also klinisch relevant. Primärer Endpunkt: prozentuale Veränderung des Körpergewichts nach 24 Wochen (also Studienmitte, nicht Studienende). Wichtige sekundäre Endpunkte: Gewichtsveränderung nach 48 Wochen · Anteil mit ≥ 5 %, ≥ 10 %, ≥ 15 %, ≥ 20 %, ≥ 25 % Gewichtsverlust · Veränderungen von Taillenumfang, Blutdruck, HbA1c, Lipidprofil. Hinweis: Der primäre Endpunkt liegt bei 24 Wochen — die spektakulären 24-%-Zahlen aus dem Abstract beziehen sich auf 48 Wochen und sind technisch ein sekundärer Endpunkt. Das ändert nichts an der Effektgröße, aber an der formalen Beweiskraft: Sekundäre Endpunkte haben weniger statistisches Gewicht.

Walkthrough · Schritt 6: Ergebnisse interpretieren

Mittlere Gewichtsveränderung nach 48 Wochen (intention-to-treat, modifiziert): Placebo +2,1 % · 1 mg −8,7 % · 4 mg −12,9 % bzw. −17,3 % (je nach Titrationsschema) · 8 mg −17,1 % bzw. −22,1 % · 12 mg −24,2 %. Alle aktiven Gruppen vs. Placebo: p < 0,001. Klare Dosis-Wirkungs-Beziehung — ein starker Hinweis auf einen echten pharmakologischen Effekt, nicht auf Zufallsbefunde. Bei der 12-mg-Dosis erreichten 100 % der Teilnehmer ≥ 5 %, 93 % ≥ 10 %, 83 % ≥ 15 %, 63 % ≥ 20 % und 26 % ≥ 30 % Gewichtsverlust. Die 95-%-Konfidenzintervalle für die 12-mg-Gruppe lagen bei etwa −27,8 % bis −20,6 % — relativ schmal, also präzise geschätzt. Adverse Events waren überwiegend gastrointestinal (Übelkeit, Diarrhö, Erbrechen), dosis- und titrationsabhängig, und führten in den höchsten Dosisgruppen bei rund 6–16 % zum Studienabbruch.

Walkthrough · Schritt 7: Limitationen — was die Studie NICHT zeigt

Auch eine NEJM-Publikation hat klare Grenzen, die im Diskussions-Teil meist offen benannt werden. (1) Dauer: 48 Wochen sind kurz für eine chronische Erkrankung — was passiert nach 2, 5 oder 10 Jahren? Bleibt der Effekt bestehen, kommt es zum Rebound, treten Spätnebenwirkungen auf? Unbekannt. (2) Stichprobe: 338 Teilnehmer auf 7 Arme — gut für Phase 2, zu klein für seltene unerwünschte Wirkungen (z. B. medulläre Schilddrüsentumore, wie bei anderen GLP-1-Analoga in Tiermodellen beobachtet). (3) Population: ausschließlich USA, mehrheitlich weiße Teilnehmer — Übertragbarkeit eingeschränkt. (4) Vergleich: Placebo, kein aktiver Komparator (z. B. Semaglutid). Aussagen wie „Retatrutide ist besser als andere GLP-1-Analoga" sind aus dieser Studie nicht direkt ableitbar. (5) Lebensstil: alle Teilnehmer erhielten begleitende Lifestyle-Interventionen (Ernährungsberatung, körperliche Aktivität) — die reine Wirkstoffwirkung ist nicht isoliert messbar.

Walkthrough · Schritt 8: Funding und Interessenkonflikte

Im Disclosure-Abschnitt wird die Finanzierung offengelegt: Die Studie wurde von Eli Lilly and Company gesponsert — dem Hersteller von Retatrutide. Mehrere Autoren sind Lilly-Angestellte, andere haben Beratungs- oder Vortragshonorare von Lilly oder konkurrierenden Pharmaunternehmen. Das macht die Daten nicht falsch, aber relevant: Sponsorfinanzierte Studien zeigen statistisch häufiger positive Effekte als unabhängige Studien (industry funding effect, mehrfach in Cochrane-Reviews dokumentiert). Mechanismen sind subtiler als direkte Datenmanipulation: Wahl des Komparators (Placebo statt Wirkstoff), Wahl der Endpunkte, selektive Berichterstattung, Studienabbruch bei negativen Trends. Pflichtkonsequenz für den Leser: NEJM-Daten ja, aber unabhängige Replikation und Phase-3-Ergebnisse abwarten — bei zugelassenen Wirkstoffen kommen meist post-marketing Sicherheitssignale hinzu, die in Phase-2-Studien systematisch unterrepräsentiert sind.

Walkthrough · Schritt 9: Was bleibt nach 30 Minuten Lektüre?

Eine systematische Studienlektüre liefert ein präzises, nuanciertes Fazit. Was diese Studie zeigt: In einer methodisch sauberen Phase-2-RCT führte Retatrutide bei adipösen Erwachsenen ohne Diabetes über 48 Wochen zu einer dosisabhängigen Gewichtsreduktion von bis zu 24 % gegenüber Placebo, bei einem Nebenwirkungsprofil ähnlich anderer GLP-1-basierter Wirkstoffe. Was diese Studie NICHT zeigt: Langzeit-Wirksamkeit (> 1 Jahr), Sicherheit über mehrere Jahre, Wirksamkeit bei Diabetikern, direkten Vorteil gegenüber Semaglutid oder Tirzepatid, klinisch harte Endpunkte (Mortalität, Herzinfarkt, Schlaganfall), Wirtschaftlichkeit oder reale Therapietreue. Wer so liest, kann auf Basis derselben Daten eine differenzierte Beurteilung treffen — die fast nie deckungsgleich mit Pressemitteilungen oder Social-Media-Posts ausfällt. Nach Phase 3 folgt typischerweise eine FDA/EMA-Zulassungsentscheidung; bis dahin ist Retatrutide ein vielversprechendes Forschungsmolekül, kein zugelassenes Arzneimittel.

Zuverlässige Quellen finden und bewerten

PubMed (pubmed.ncbi.nlm.nih.gov) ist die wichtigste Datenbank für biomedizinische Primärliteratur mit über 35 Millionen Einträgen — kostenlose Abstract-Suche, Volltext oft hinter Paywall, aber via PMC (PubMed Central) viele Open-Access-Versionen verfügbar. Cochrane Library (cochranelibrary.com) bietet systematische Übersichtsarbeiten höchster methodischer Qualität, oft mit Plain-Language-Zusammenfassung. ClinicalTrials.gov listet alle registrierten klinischen Studien — wichtig zur Erkennung von Publication Bias (nicht-publizierte Studien). Pre-Prints (medRxiv, bioRxiv) sind ungeprüft und sollten nur mit großer Vorsicht zitiert werden. Goldene Lese-Reihenfolge: (1) Titel + Journal + Phasenangabe, (2) Abstract, (3) Methods (Design, Randomisierung, Blinding, Endpunkte), (4) Ergebnisse mit Konfidenzintervallen, (5) Limitations, (6) Funding & Interessenkonflikte — erst dann die Diskussion und Schlussfolgerungen der Autoren. Wer in dieser Reihenfolge liest, erkennt früh, ob die Conclusions zu den Daten passen — oder sie überdehnen.

Rechtlicher Hinweis: Alle Inhalte dienen ausschließlich der wissenschaftlichen Information und Forschung. Sie stellen ausdrücklich keine Empfehlung zur Anwendung, keine medizinische Beratung, Diagnose oder Therapieempfehlung dar. Die beschriebenen Substanzen sind in Deutschland, Österreich und der Schweiz für die meisten aufgeführten Anwendungen nicht als Arzneimittel zugelassen. Jede Eigenanwendung erfolgt auf eigene Verantwortung; alle Angaben ohne Gewähr.

Passende Tools

Dosierungsrechner Mischungsverhältnis-Rechner Kosten-Rechner