Lebenslange nnU
Scientific Reports Band 13, Artikelnummer: 9381 (2023) Diesen Artikel zitieren
Details zu den Metriken
Da die Begeisterung für Deep Learning zunimmt, suchen sowohl Ärzte als auch Aufsichtsbehörden nach Möglichkeiten, die Bildsegmentierung sicher in die klinische Praxis einzuführen. Eine Hürde, die bei der Umsetzung vielversprechender Forschungsergebnisse in die offene klinische Welt überwunden werden muss, ist der Übergang vom statischen zum kontinuierlichen Lernen. Kontinuierliches Lernen, die Praxis des Trainierens von Modellen über ihren gesamten Lebenszyklus hinweg, erfreut sich wachsendem Interesse, steckt im Gesundheitswesen jedoch noch in den Kinderschuhen. Wir präsentieren Lifelong nnU-Net, ein standardisiertes Framework, das Forschern und Klinikern eine kontinuierliche Segmentierung ermöglicht. Aufbauend auf dem nnU-Net – weithin als leistungsstärkster Segmentierer für mehrere medizinische Anwendungen angesehen – und mit allen notwendigen Modulen für das sequentielle Training und Testen von Modellen ausgestattet, stellen wir eine breite Anwendbarkeit sicher und senken die Hürde für die kontinuierliche Evaluierung neuer Methoden Mode. Unsere Benchmark-Ergebnisse in drei Anwendungsfällen der medizinischen Segmentierung und fünf Methoden des kontinuierlichen Lernens geben einen umfassenden Ausblick auf den aktuellen Stand des Fachgebiets und stellen einen ersten reproduzierbaren Benchmark dar.
Deep-Learning-Methoden für medizinische Anwendungsfälle werden weiterhin in einer statischen Umgebung evaluiert, in der alle verfügbaren Daten gemischt und das Modell an einer Teilmenge von In-Distribution-Stichproben getestet werden. Dies beruht auf der unrealistischen Annahme, dass (a) alle Trainingsdaten an einem zentralen Ort verfügbar sind und (b) sich die Erfassungsbedingungen im Laufe der Zeit nach dem klinischen Einsatz nicht ändern1. Eine solche Bewertung führt zu einer erheblichen Lücke zwischen der gemeldeten Leistung neuer Methoden und ihrer Anwendbarkeit in der Praxis2,3,4, was den lebenslangen Einsatz von Wirkstoffen für lebenslanges Lernen in dynamischen klinischen Umgebungen behindert5.
Kontinuierliches Lernen vernachlässigt nicht die zeitliche Dimension der Daten und trainiert Modelle sequentiell, wie in Abb. 1 dargestellt. Ziel hierbei ist die Anpassung an neue Umgebungen ohne Leistungseinbußen bei zuvor beobachteten Trainingsbedingungen und Probandengruppen. Methoden des verteilten föderierten Lernens wurden in multiklinischen Umgebungen untersucht und erfordern auch keinen Datenaustausch zwischen Institutionen6,7. Allerdings gehen sie weder auf zeitliche Beschränkungen der Datenverfügbarkeit ein, noch bieten sie einen Rahmen für Agenten, die sich kontinuierlich an sich verändernde Bevölkerungsdynamiken anpassen. Kontinuierliches Lernen im Gesundheitswesen, das sich mit diesen Problemen befasst, stößt auf wachsende Begeisterung8,9,10,11 und Regulierungsverfahren werden aktiv diskutiert5,12,13. Derzeit ist jedes Mal eine erneute Genehmigung erforderlich, wenn ein Modell während der Bereitstellung angepasst wird. Es gibt jedoch Initiativen sowohl der FDA als auch der Europäischen Kommission für ein Lebenszyklus-Regulierungsprotokoll, das die Verwendung sich kontinuierlich anpassender Algorithmen ermöglicht14. Diese Bemühungen können dazu führen, dass wir in die seltene Situation kommen, dass die regulatorischen Richtlinien bereits vorhanden sind, während die Technologie noch in den Kinderschuhen steckt.
In einer statischen Einstellung (links) werden alle Trainingsdaten zusammengeführt. Kontinuierliche Einstellungen (rechts) berücksichtigen den Zeitpunkt der Erfassung und trainieren das Modell sequentiell.
In der Fachliteratur zum kontinuierlichen Lernen für einfachere Computer-Vision-Aufgaben gibt es Kontroversen über das Fehlen eines standardisierten Bewertungsaufbaus15,16,17. Kürzlich hat sich das Avalanche18-Projekt als Lösung für dieses Problem der kontinuierlichen Klassifizierung herausgestellt, indem es eine einheitliche Codebasis bereitstellt. Für die kontinuierliche Segmentierung, die jedem Pixel im Bild eine Bezeichnung zuweist und wohl die wichtigste KI-Aufgabe im klinischen Bereich ist, ist das Gebiet noch nicht so ausgereift. Obwohl in den letzten Jahren mehr Arbeit geleistet wurde8,10,19,20,21,22,23, baut es weder (1) auf leistungsstarken Segmentierungspipelines auf noch (2) untersucht es, wie beliebte Methoden auf die Bildsegmentierung für mehrere übertragen werden Open-Source-Benchmarks.
In dieser Arbeit stellen wir Lifelong nnU-Net vor, ein standardisiertes Framework für das Training und die Bewertung von Segmentierungsmodellen in kontinuierlichen Umgebungen. Wir bauen unseren Code auf der nnU-Net-Pipeline auf, die bei 33 medizinischen Segmentierungsaufgaben weit verbreitet und auf dem neuesten Stand der Technik ist – und bei zwanzig weiteren wettbewerbsfähig – bei 11 internationalen biomedizinischen Segmentierungsherausforderungen24. Dies stellt die hohe Benutzerfreundlichkeit und Leistung unseres erweiterten Frameworks sicher. Unsere Beiträge sind:
Die Einführung eines Open-Source-Frameworks für kontinuierliches Lernen, das auf dem nnU-Net aufbaut
Ein Leistungs- und Laufzeitvergleich für sequentielles Training unter verschiedenen Einstellungen und
Open-Source-Implementierungen für fünf kontinuierliche Lernmethoden, die eine schnelle Bewertung des Stands der Technik ermöglichen und die Entwicklung neuer Ansätze beschleunigen.
Unsere Experimente mit öffentlich verfügbaren Daten für drei verschiedene Segmentierungsprobleme zeigen, dass:
Keine der untersuchten Methoden des kontinuierlichen Lernens erzielt durchweg einen positiven Rückwärtstransfer für die Segmentierung, was den Bedarf an neuen Lösungen verdeutlicht.
In Übereinstimmung mit früheren Untersuchungen zeigen probenbasierte Methoden das geringste Maß an Vergessen bei gleichzeitiger Beibehaltung der Modellplastizität
Die in der Literatur zum kontinuierlichen Lernen übliche Praxis, aufgabenspezifische Köpfe beizubehalten, ist für die Segmentierung nur minimal relevant.
Das Ziel von Lifelong nnU-Net besteht darin, hohe technische Standards und reproduzierbare Ergebnisse sicherzustellen, während die Community kontinuierliches Lernen in die medizinische Bildsegmentierung umsetzt. Durch die Veröffentlichung unseres Codes und unserer trainierten Modelle für Open-Source-Datensätze legen wir einen Maßstab für die Bewertung zukünftiger kontinuierlicher Lernmethoden für Segmentierungsmodelle fest.
Wir beginnen diesen Abschnitt mit der Untersuchung der Ergebnisse statischer Trainingsmodelle mit einem Datensatz. Anschließend untersuchen wir sequentielles Lernen und fünf beliebte kontinuierliche Lernstrategien: Rehearsal, Elastic Weight Consolidation25 (EWC), Learning without Forgetting26 (LwF), Riemannian Walk27 (RW) und Modeling the Background28 (MiB). Wir betrachten hiermit die Datensätze jeder Anatomie (Hippocampus, Prostata oder Herz) als n Aufgaben \(\mathscr {T}_1\), ..., \(\mathscr {T}_n\) und trainieren das Modell jeder einzelnen Anwendungsfall nacheinander mit allen zugehörigen Aufgaben.
Wir quantifizieren die Segmentierungsleistung mit dem Dice-Koeffizienten und berichten über den Rückwärtstransfer (BWT), der den Grad des Vergessens älterer Aufgaben misst, und den Vorwärtstransfer (FWT), der die Fähigkeit bewertet, neues Wissen zu erlernen.
Abschließend analysieren wir den Unterschied zwischen der Verwendung von Single- und Multi-Head-Architekturen, veranschaulichen kurz die Bedeutung der Aufgabenreihenfolge und geben eine Zusammenfassung unserer Schulungszeiten.
Um die Ergebnisse des kontinuierlichen Lernens in einen Kontext zu setzen, beobachten wir zunächst die Leistung unabhängiger Modelle, die ausschließlich auf einem Datensatz trainiert wurden. Diese sind in Abb. 2 dargestellt. Auf der Diagonale von links unten nach rechts oben sehen wir statische Auswertungen zu In-Distribution-Daten. In dieser Einstellung erreichen alle Modelle mindestens 86 % Würfel.
Leistung von Modellen, die unabhängig und ausschließlich anhand eines Datensatzes trainiert wurden. Auf der Diagonale (unten links nach oben rechts) finden wir den Würfelkoeffizienten zur Bewertung von Modellen anhand der Testfälle des für das Training verwendeten Datensatzes. In den verbleibenden Zellen sehen wir, wie diese Modelle auf andere Datensätze übertragen werden. Für die Herzdaten berichten wir über die Segmentierungsleistung des rechten Ventrikels.
Mithilfe der aufgabenübergreifenden Matrizen können wir auch sehen, wie effektiv jedes Modell bei Daten außerhalb der Verteilung funktioniert. Diese Leistungsunterschiede sind sowohl auf die inhärente Unähnlichkeit zwischen Datensätzen in Bezug auf Erfassung und Patientenpopulation als auch auf die Robustheit des Modells zurückzuführen, die durch größere und vielfältigere Trainingsdaten verursacht wird. Die Annahme ist, dass, wenn ein Modell, das auf \(\mathscr {T}_1\) trainiert wurde, später auf \(\mathscr {T}_2\\) trainiert wird, das Ausmaß des Vergessens für \(\mathscr {T}_1\) zunimmt niedriger sein, je ähnlicher die Datenverteilung und je höher die anfängliche Leistung des Modells auf \(\mathscr {T}_2\).
Für die Prostatasegmentierung (erste Heatmap) ist I2CVB ein klarer Ausreißer. Im Fall des Hippocampus schneidet das auf HarP trainierte Modell auf DecathHip schlechter ab und umgekehrt. Während das HarP-Modell bei Dryad einen Würfelwert von 86 % erreicht, erreicht das Dryad-Modell bei HarP nur 50 %. Dies ist wahrscheinlich auf die viel größere Größe von HarP zurückzuführen (siehe Tabelle 4). Im Fall der Segmentierung des rechten Ventrikels schneidet das auf Siemens trainierte Modell auf Philips gut ab, aber das Philips-Modell erreicht bei den Siemens-Daten nur einen Dice von 50 %, was wahrscheinlich zu einer geringeren Variation zwischen den Trainingsfällen führt.
Als nächstes untersuchen wir die Leistung, wenn Modelle nacheinander trainiert werden, zusammengefasst in Tabelle 1 für die Prostata- und Hippocampus-Anatomie und in Tabelle 2 für die Herzanatomie. In der ersten Zeile geben wir die Obergrenze eines statischen Modells an, das mit allen gemischten Trainingsdaten der jeweiligen Anatomie trainiert wurde. Die folgende Zeile zeigt das Ergebnis des sequentiellen Trainings eines Modells auf triviale Weise, und weitere Zeilen beziehen sich auf verschiedene kontinuierliche Lernstrategien, die versuchen, das Ausmaß des Vergessens zu dämpfen. Gemeldet wird der Würfel des finalen Modells nach dem Training in den Ordnungen \(UCL \rightarrow I2CVB \rightarrow ISBI \rightarrow DecathProst\) (Prostata), \(HarP \rightarrow Dryad \rightarrow DecathHip\) (Hippocampus) und \(Siemens \ rightarrow Philips\) (Herz).
Über alle Anatomien hinweg ist die Rehearsal29 (Reh.)-Methode wirksam, um das Vergessen zu verhindern. Dies steht im Einklang mit früheren Untersuchungen29. Diese Strategie kann jedoch nicht immer angewendet werden, da sie erfordert, dass Proben aus früheren Aufgaben gespeichert werden, um sie in zukünftigen Schulungen zu verschachteln. Dies ist in vielen Szenarien nicht möglich, in denen die Probe eine zusätzliche Obergrenze darstellen würde. In diesen Fällen reduzieren EWC und MiB zuverlässig das Ausmaß des Vergessens bei frühen Aufgaben. Im Gegensatz dazu scheinen sich LwF und RW nicht gut auf die Aufgabe der semantischen Segmentierung übertragen zu lassen. Wir veranschaulichen das Vergessen direkt als inverse Rückwärtsübertragung in Abb. 3 (y-Achse), wo wir sehen, dass EWC (▼), MiB () und Rehearsal (✖) hohe Rückwärtsübertragungswerte beibehalten.
Relative Rückwärts- (Y-Achse) und Vorwärts-Übertragung (X-Achse) für die kontinuierliche Segmentierung von drei Anwendungsfällen, gemittelt über alle jeweiligen Daten. Jeder Marker entspricht einem Trainingsstadium und einer anatomischen Struktur. Beim Rückwärtstransfer handelt es sich um das umgekehrte Vergessen, beim Vorwärtstransfer wird gemessen, wie gut sich das Modell an zukünftige Aufgaben anpasst. Für beide Kennzahlen gilt: höher ist besser, und Ergebnisse nahe Null können realistischerweise erwartet werden.
Beachten Sie jedoch, dass dies oft mit einem Verlust der Modellplastizität einhergeht, was die Leistung bei späteren Aufgaben verringert. Während beispielsweise das sequentielle Modell in DecathProst (der letzten Aufgabe) einen Dice von 91,91 % anzeigt, sinkt dieser für EWC auf 87,79 %. Bei der Hippocampus-Segmentierung ist dieses Verhalten deutlich ausgeprägter. Der Dice auf DecathHip fällt von 90,92 % auf 31,93 % für EWC und 20,75 % für MiB. Bei den Herzdaten sind die Leistungsverschlechterung bei der anfänglichen Siemens-Aufgabe für LwF und RW und der Plastizitätsverlust bei Philips-Daten für EWC und MiB besonders auffällig für die anspruchsvolleren Klassen Myokard (MI) und rechter Ventrikel (RV). Der Plastizitätsverlust wird als Vorwärtsübertragung (x-Achse) in Abb. 3 dargestellt, wobei EWC negative Werte zeigt, während Rehearsal nahe Null bleibt.
Wir analysieren das Verhalten des trivialen sequentiellen Trainings neben der leistungsstärksten Rehearsal-Methode und dem EWC weiter, indem wir die Trainingsverläufe in Abb. 4 beobachten.
Lerntrajektorien für die Hippocampus- und Prostatasegmentierung, die letzte in zwei verschiedenen Reihenfolgen, nämlich \(UCL \rightarrow I2CVB \rightarrow ISBI \rightarrow DecathProst\) und \(ISBI \rightarrow UCL \rightarrow DecathProst \rightarrow I2CVB\). Die vertikalen Linien markieren Aufgabengrenzen. Jede Aufgabe wird in einer anderen Farbe angezeigt. Wir vergleichen triviales sequentielles Training (durchgezogene Linien) mit EWC (gestrichelt) und Probe (gepunktet).
Die durchgezogenen Linien für sequentielles Training zeigen meist einen schnellen Abfall nach Aufgabengrenzen. Sowohl die Probe als auch die EWC verringern das Ausmaß des Vergessens erheblich. Allerdings ist die verminderte Plastizität, die sich als negativer Vorwärtstransfer für EWC manifestiert, offensichtlich, wobei die gestrichelten Linien einer neuen Aufgabe häufig unterhalb der sequentiellen Äquivalente beginnen, insbesondere in Abb. 4 für DecathHip im dritten Hippocampusstadium.
Bei den Prostata-Experimenten in der Reihenfolge \(UCL \rightarrow I2CVB \rightarrow ISBI \rightarrow DecathProst\) bemerken wir eine unerwartete Erholung für UCL (Cyan), nachdem das Training mit I2CVB (zweite Stufe) abgeschlossen ist. Dies ist jedoch wahrscheinlich auf die inhärente gute Leistung von Modellen zurückzuführen, die mit ISBI und DecathProst auf UCL trainiert wurden (siehe Abb. 2).
Wiederholen wir das Experiment in der Reihenfolge \(ISBI \rightarrow UCL \rightarrow DecathProst \rightarrow I2CVB\), sehen wir ein Verhalten, das eher dem für den Hippocampus beobachteten ähnelt, wo es zu einer kontinuierlichen Verschlechterung der Leistung bei älteren Aufgaben und einem Leistungsverlust kommt Die Modellplastizität für EWC zeigte sich in einer geringen Startleistung für die letzte Aufgabe, I2CVB.
Dies zeigt, wie wichtig die Aufgabenreihenfolge beim Vergleich kontinuierlicher Lernmethoden ist. Im Idealfall sollten alle Ordnungen berücksichtigt werden, dies kann jedoch beim Training dreidimensionaler Segmentierungsarchitekturen rechnerisch unmöglich sein. Alternativ sollten statische Leistungsergebnisse innerhalb der Verteilung und zwischen Aufgaben berücksichtigt werden. Allerdings ist dies nur für retrospektive Studien möglich. Voraussichtlich ist die Reihenfolge der Aufgaben vorgegeben, und der Benutzer muss mit Aufgaben trainieren, sobald sie verfügbar werden, ohne zu wissen, in welchem Zusammenhang diese mit Daten stehen, die später verfügbar werden.
Die meisten Methoden des kontinuierlichen Lernens ermöglichen die Optimierung der Modellsteifigkeit durch einige Hyperparameter. Beispielsweise entscheidet der EBR \(\lambda\), wie stark die Abweichung von früheren Modellstaaten bestraft werden soll. Ein größeres \(\lambda\) priorisiert die Wissenserhaltung, während ein kleineres \(\lambda\) eine einfachere Anpassung des Modells an die neue Verteilung ermöglicht.
Leider haben wir im Gegensatz zu statischen Trainingsumgebungen, in denen Hyperparameter mit einem Validierungssatz optimiert werden können, in einer echten kontinuierlichen Umgebung keinen Zugriff auf Proben aus früheren Aufgaben und keine Informationen darüber, welche Daten das Modell später erhalten wird. Daher ist es äußerst schwierig, sich für gute Hyperparameter zu entscheiden, und wir müssen den Richtlinien in der Literatur folgen, vorab die Verlustverläufe in der aktuellen Aufgabe beobachten oder unsere Einstellungen durch die Ergebnisse anderer Experimente leiten. Das ist die Strategie, die wir in dieser Arbeit verfolgen.
In Tabelle 2 enthalten wir retrospektive Ergebnisse für drei Hyperparametereinstellungen für jede Methode des kontinuierlichen Lernens. Dazu gehören die in Tabelle 1 verwendeten Standardeinstellungen (\(\lambda = 0,4\) für EWC, \(T = 2\) für LwF, \(\alpha =0,9\) für MiB und \(\lambda = 0,4\) für RW) und andere, die wir nach der Analyse dieser Ergebnisse für angemessen hielten. Insbesondere stellen wir fest, dass ein niedrigeres \(\lambda\) für EWC und ein niedrigeres \(\alpha\) für MiB von Vorteil sind, was eine höhere Modellplastizität ermöglicht und gleichzeitig das Wissen bewahrt. Andere Einstellungen führten nicht zu einer Verbesserung der Ergebnisse für LwF oder RW.
Wir weisen darauf hin, dass dies nicht zu einer höheren Leistung bei den Anwendungsfällen Prostata und Hippocampus führt. Obwohl EWC und MiB die Plastizität der Modelle verringern, wie in Tabelle 1 zu sehen ist, sind sie tatsächlich nicht zu starr, da wir auch einiges Vergessen feststellen (z. B. bei ISBI, HarP und Dryad). Das Festlegen von Hyperparametern für den realen Einsatz oder prospektive Studien ist äußerst anspruchsvoll und ein Problem bei der Anwendung kontinuierlicher Lernmethoden in realen dynamischen Umgebungen, da ein Kompromiss zwischen Steifigkeit und Plastizität nicht zuverlässig durch Beobachtung der Ergebnisse anderer Anwendungsfälle ausgewählt werden kann.
In früheren Experimenten gingen wir davon aus, dass das gesamte Modell sequentiell trainiert wurde. Kontinuierliches Lernen wird manchmal in einer Multi-Head-Umgebung evaluiert, in der die letzte Netzwerkschicht aufgabenabhängig bleibt und nach dem Training mit ihrer jeweiligen Aufgabe nicht aktualisiert wird15. Bei der Inferenz wird der entsprechende Kopf neben dem gemeinsamen Körper verwendet. Darüber hinaus gibt es zwei Alternativen zur Körpererneuerung: Der Körper kann plastisch bleiben und sich so im Laufe der Zeit erneuern oder nach der ersten Trainingsphase eingefroren werden.
Wenn die Aufgabenpriorität für eine Probe während der Inferenz nicht bekannt ist, kann sie aus Bildeigenschaften wie der Verteilung von Intensitätswerten oder der Fähigkeit eines Autoencoders, sie zu rekonstruieren, abgeleitet werden19,30. In dieser Arbeit gehen wir davon aus, dass diese Informationen verfügbar sind.
In Abb. 5 untersuchen wir die vier Möglichkeiten des Trainierens vs. Einfrierens des gemeinsamen Körpers und der Aufrechterhaltung eines einheitlichen vs. aufgabenunabhängigen Kopfes. Wir stellen fest, dass der Unterschied zwischen der Beibehaltung eines Kopfes und der Verwendung getrennter Köpfe (und der Auswahl des geeigneten Kopfes während der Inferenz) minimal ist. Im Gegensatz dazu verhindert das Einfrieren des Körpers das Vergessen bei der frühen Siemens-Aufgabe, allerdings auf Kosten einer etwas geringeren Leistung bei der zweiten Philips-Aufgabe (was aufgrund des Plastizitätsverlusts zu erwarten wäre). Wie aus Abb. 2 hervorgeht, schneidet das Modell, das nur auf Siemens-Daten trainiert wurde, auf Philips recht gut ab. Dies weist darauf hin, dass der Verlust der Plastizität einen größeren Einfluss auf die Leistung eines anderen Datenkorpus haben könnte.
Vier Einstellungen zum Trainieren und Konstruieren eines Modells: dem Modell erlauben, sich anzupassen und aufgabenabhängige Köpfe beizubehalten (Plastic MH, rosa) oder einen Kopf zu teilen (Plastic LH, orange), den Körper nach der ersten Aufgabe einzufrieren und aufgabenabhängige Köpfe beizubehalten (Frozen MH, hellblau) oder sich einen Kopf teilen (Frozen LH, grün). Der Würfel wird für drei Herzstrukturen gemeldet.
Im Folgenden veranschaulichen wir anschaulich, wie sich kontinuierliches Lernen auf die Integrität der Segmentierungsmasken auswirkt. Im Gegensatz zur Bildklassifizierung können Segmentierungen einen direkten Hinweis darauf geben, wann und wie ein Modell versagt. Abbildung 6 zeigt Beispiele aus den UCL- und HarP-Datensätzen, die die ersten Aufgaben für die Anwendungsfälle Prostata bzw. Hippocampus darstellen.
Die erste und zweite Spalte zeigen die Grundwahrheit und die vom Modell erzeugte Segmentierung direkt nach Abschluss des Trainings mit der entsprechenden Aufgabe. Weitere Spalten zeigen die Vorhersage des endgültigen Modells mit verschiedenen kontinuierlichen Lernstrategien. Wie beim trivialen Training des Modells auf sequentielle Weise (Seq. bei \(\mathscr {T}_n\)) erzeugen die Methoden LwF und RW verstreute Segmentierungsmasken mit zusätzlichen verbundenen Komponenten. EWC bewahrt die Integrität der Hippocampus-Segmentierung, nicht jedoch die der Prostata. Dies ist wahrscheinlich auf die erhöhte Steifigkeit des Hippocampus-Modells zurückzuführen, die wiederum zu einem negativen Vorwärtstransfer führt (siehe Abb. 3). Bei der Probe bleiben im Allgemeinen die korrekten Formen erhalten, obwohl die Prostatamaske größer ist als sein sollte und eine zusätzliche verbundene Komponente enthält. Schließlich stellt MiB in beiden Fällen erfolgreich vernünftige Masken her, allerdings mit etwas niedrigeren Prostatasegmenten.
Qualitative Verschlechterung der Segmentierungsleistung beim sequentiellen Training von Modellen für UCL und HarP, für die wir interessierende Ausschnitte axialer Ansichten und 3D-Renderings anzeigen, die mit ITK-SNAP31 erstellt wurden.
Unsere Experimente wurden in einem System mit 8 NVIDIA Tesla T4 (16 GB) GPUs, 2 Intel Xeon Silver 4210 CPUs und 256 GB DDR4 RAM durchgeführt. Die Experimente wurden parallel durchgeführt und beanspruchten jeweils eine GPU, mit Ausnahme der LwF-Experimente für den Prostata-Anwendungsfall, bei denen zwei GPUs im Tandem verwendet wurden.
Tabelle 3 gibt einen Überblick über die Trainingszeiten, die für eine Epoche für jede Methode und Anatomie benötigt werden. Die Hippocampus-Experimente waren aufgrund der geringeren Auflösung am schnellsten. MiB benötigt deutlich mehr Zeit als sequentielles Training, und die Dauer einer LwF-Epoche nimmt mit zunehmender Länge der Aufgabensequenz stark zu (bemerkbar bei den Prostataexperimenten mit vier Aufgaben), selbst wenn ein Teil des Netzwerks eingefroren ist.
Insbesondere für die Segmentierung medizinischer Bilder, wo die Hardwareanforderungen erheblich und potenziell unerschwinglich sind, sollte der Rechenaufwand bei der Auswahl einer Strategie für kontinuierliches Lernen berücksichtigt werden. Insbesondere kann es sinnvoll sein, Methoden zu vermeiden, die die Dauer jeder Epoche linear mit der Länge der Tasksequenz erhöhen.
In dynamischen klinischen Umgebungen werden Modelle benötigt, die sich an sich ändernde Bildgebungsprotokolle und Krankheitsmuster anpassen können. Während die Bedeutung kontinuierlichen Lernens für die Segmentierung medizinischer Bildgebung erkannt wird, fehlen unserer Community die Berichtsstandards und Benchmark-Datensätze, die Forscher für die Klassifizierung natürlicher Bilder verwenden.
Mit dem Lifelong nnU-Net schaffen wir einen Rahmen für die standardisierte Bewertung der kontinuierlichen Segmentierung. Wir erweitern die beliebte nnU-Net-Pipeline um alle Komponenten, die zum sequenziellen Trainieren und Bewerten von Segmentierungsarchitekturen erforderlich sind, einschließlich fünf beliebter kontinuierlicher Lernstrategien und Metriken, die speziell für kontinuierliche Paradigmen gelten.
Unsere Auswertung über drei verschiedene Segmentierungsanwendungsfälle hinweg ermöglicht es uns, wertvolle Erkenntnisse zu gewinnen. Im Einklang mit früheren Untersuchungen29 führt Rehearsal zu den besten Ergebnissen und verringert das Vergessen erheblich, indem eine Teilmenge von Fällen aus früheren Aufgaben in den Trainingsdaten verschachtelt wird. In unseren Experimenten verschachteln wir einen festen Prozentsatz der vergangenen Trainingsdaten, es gibt jedoch viele Strategien zur Optimierung des Speicherpuffers oder zur Replikation von Fällen, in denen einige Aufgaben unterrepräsentiert sind. Natürlich ist eine probenbasierte Strategie nur möglich, wenn diese Daten gespeichert werden können. Für Szenarien, in denen dies aus Gründen der Privatsphäre des Patienten nicht der Fall ist, erweisen sich die EWC- und MiB-Methoden als geeignete Alternativen, die das Vergessen effektiv reduzieren, allerdings auf Kosten einer verringerten Fähigkeit des Modells, sich an neue Aufgaben anzupassen. Schließlich scheinen die LwF- und RW-Methoden für unser Setup nicht gut geeignet zu sein. Obwohl sie weiter optimiert werden könnten, um in retrospektiven Experimenten eine bessere Wissenserhaltung zu ermöglichen, ist dies während der tatsächlichen Bereitstellung nicht möglich, da die Verschlechterung des Modells bei früheren Aufgaben nicht gemessen werden kann.
Eine enttäuschende Erkenntnis aus unserer Studie ist, dass keine Methode zu einem positiven Rückwärtstransfer (BWT) führte. Dies wird in Abb. 3 deutlich, wo wir sehen, dass selbst die besten Methoden das Vergessen nur verhindern und einen BWT von Null erreichen. Dies bedeutet, dass kein bei späteren Aufgaben erworbenes Wissen die Leistung bei früheren Aufgaben verbessert. Daher würde die Aufrechterhaltung völlig unabhängiger Modelle und die Verwendung des entsprechenden Modells während der Inferenz alle untersuchten Methoden des kontinuierlichen Lernens übertreffen. Auch bei den Prostata-Experimenten sahen wir nur einen positiven Vorwärtstransfer. Dies bedeutet, dass das vorherige Training mit früheren Aufgaben und die anschließende Feinabstimmung die Leistung im Vergleich zum Training eines Modells mit der entsprechenden Aufgabe von Grund auf nur minimal verbessert.
Darüber hinaus haben wir festgestellt, dass die in der Literatur zum kontinuierlichen Lernen übliche Praxis der Beibehaltung aufgabenspezifischer Köpfe keinen wesentlichen Einfluss auf die Leistung der kontinuierlichen Segmentierung in medizinischen Bildern hat. Dies ist sowohl dann der Fall, wenn der Körper nach der ersten Stufe eingefroren ist, als auch, wenn er plastisch bleibt. Weitere Studien sollten sich damit befassen, einen größeren Teil des Netzwerks aufgabenspezifisch zu belassen.
Wir haben in unserer Studie mehrere Einschränkungen festgestellt. Erstens haben wir unsere Studie auf die patchbasierte 3D-nnU-Net-Variante mit voller Auflösung beschränkt, die für die meisten Anwendungen empfohlen wird. Wir haben unsere Experimente mit den Slice-by-Slice- oder 3D-Downsampling-Netzwerken nicht wiederholt. Unsere Bewertung konzentriert sich auch auf das Szenario des inkrementellen Domänenlernens, das im Kontext der medizinischen Bildgebung am relevantesten ist8.
Zweitens gibt es derzeit nur einen begrenzten Katalog kontinuierlicher Lernmethoden im Lifelong nnU-Net-Framework. Wir suchten nach einer ausreichenden Darstellung einzelner Ansätze über verschiedene Strategien hinweg und implementierten eine Mischung aus sehr beliebten, aber älteren Methoden (einfache Probe, EWC und LwF) und neueren Ansätzen (MiB und RW). Wir hoffen, dass dieser Katalog in Zukunft sowohl durch unsere Bemühungen als auch durch die Beiträge anderer Mitglieder der Community wächst.
Ein wirksamer Rahmen für die kontinuierliche Bildsegmentierung stellt die folgenden Anforderungen:
Es verfügt über alle Komponenten zur Erzielung hochwertiger statischer Segmentierungsergebnisse und unterstützt sowohl zwei- als auch dreidimensionale Architekturen (wie das nnU-Net).
Vereinfacht die Bewertung inkrementeller Domänenszenarien, indem es sich auf weithin akzeptierte Datensatzformate und die Ausrichtung von Beschriftungsmerkmalen über Datensätze hinweg stützt.
Enthält eine integrierte Bewertungslogik, die die Leistung des Modells für verschiedene Aufgaben während des Trainings mit geeigneten Metriken verfolgt
Unterstützt bestehende hochmoderne Lösungen für kontinuierliches Lernen, einschließlich des Trainings von Mehrkopfmodellen, die sowohl gemeinsame als auch aufgabenunabhängige Parameter beibehalten.
Wir beginnen diesen Abschnitt mit der Einführung der drei von uns untersuchten Segmentierungsanwendungsfälle sowie unserer Notation. Anschließend erläutern wir, wie wir jede der oben genannten Anforderungen angehen, um sicherzustellen, dass das Lifelong nnU-Net-Framework eine solide Grundlage für die medizinische Forschung zum kontinuierlichen Lernen bietet. Abschließend beschreiben wir die verwendeten kontinuierlichen Lernmethoden und erläutern kurz Details unseres Versuchsaufbaus.
Wir untersuchen das Problem der kontinuierlichen Bildsegmentierung für drei sehr unterschiedliche Anwendungsfälle. Um die Reproduzierbarkeit sicherzustellen, verwenden wir nur offen verfügbare Datensätze und richten die Etikettenmerkmale gemäß dem unten beschriebenen Prozess aus. Für jede Anatomie wählen wir ein Array von Datensätzen aus, die als unsere Aufgaben \(\mathscr {T}_1 ... \mathscr {T}_n\) dienen. Tabelle 4 bietet einen Überblick über die Daten- und Beschriftungsmerkmale aller Datensätze.
Der erste Anwendungsfall, den wir angehen, ist die Segmentierung der Prostata in T2-gewichteten MRTs, für die wir einen Korpus aus vier Datenquellen verwenden. Wir verwenden die im Multi-site Dataset for Prostate MRI Segmentation Challenge32,33 bereitgestellten Daten für die Standorte A (ISBI34), C (I2CVB35) und D (UCL36). Schließlich nutzen wir die im Rahmen der Medical Segmentation Decathlon37 (DecathProst) bereitgestellten Daten. Einige Segmentierungsmasken enthalten zwei Beschriftungen, die die periphere Zone und die zentrale Drüse darstellen, die wir zu einer Prostata-Beschriftung zusammenfügen, um die Konsistenz im gesamten Körper sicherzustellen. Die Segmentierung der Prostata ist ein relativ einfaches Problem, obwohl sie für die Bestimmung der möglichen Lage von Tumorgewebe vor einer Biopsie von entscheidender Bedeutung ist, und die Form der Prostata variiert bei verschiedenen Patienten kaum. Abbildung 7 zeigt Beispiele der vier Datensätze.
Beispielhafte Schnitte für vier Probanden aus den Prostata-Segmentierungsdatensätzen.
Die zweite ist die Segmentierung des Hippocampus in T1-gewichteten MRTs, für die wir drei Datenquellen einbeziehen. Die Daten des Harmonisierten Hippocampus-Protokolls38, im Folgenden als HarP bezeichnet, umfassen ältere gesunde Probanden und Patienten mit Alzheimer-Krankheit. Der Dryad39-Datensatz umfasst fünfzig weitere gesunde Patienten. Als dritte Datenquelle nutzen wir die im Rahmen des Medical Segmentation Decathlon37 (DecathHip) bereitgestellten Bilder sowohl von gesunden Erwachsenen als auch von Schizophreniepatienten. Für die Segmentierung des Hippocampus ist mit Würfeln von über 90 % zu rechnen24. Beispielhafte Bildausschnitte aus allen drei Datensätzen finden sich in Abb. 8.
Beispielhafte Schnitte für drei Probanden aus den Hippocampus-Segmentierungsdatensätzen.
Abschließend untersuchen wir die Segmentierung des linken und rechten Ventrikels (LV und RV) und des Myokards (MI) in Herz-MRTs. Wir nutzen die für die Multi-Centre, Multi-Vendor & Multi-Disease Cardiac Image Segmentation Challenge (M&Ms)40 veröffentlichten Daten, die 75 gekennzeichnete Fälle umfassen, die mit Siemens-Scannern und 75 Fälle mit Philips-Scannern erfasst wurden. Dies bringt die zusätzliche Schwierigkeit mit sich, dass es sich um ein Mehrklassenproblem handelt, das es uns ermöglicht zu beobachten, wie die Leistung verschiedener anatomischer Strukturen je nach Form und Größe der interessierenden Region variiert. Beispielhafte Schnitte sind in Abb. 9 zu sehen.
Beispielhafte Schnitte für Probanden aus den beiden Herzdatensätzen. Segmentiert sind der linke Ventrikel (rot), das Myokard (grün) und der rechte Ventrikel (blau).
Wir wählen diese drei Problemeinstellungen aus, um Variabilität hinsichtlich Modalität, Form und Größe der Segmentierungsmasken und Schwierigkeit der jeweiligen Aufgabe sicherzustellen. Selbstverständlich ermöglicht unser Framework die schnelle Evaluierung weiterer Anwendungsfälle. Für alle Datensätze teilen wir 20 % der Daten zu Testzwecken auf und behalten diese Aufteilung über alle Experimente hinweg bei. Wir machen die Splits zusammen mit unserem Code öffentlich zugänglich.
Betrachten Sie n Aufgaben \(\mathscr {T}_1\), ..., \(\mathscr {T}_n\). Modell \(\mathscr {F}_2\) wird nur auf den Trainingsdaten der Aufgabe \(\mathscr {T}_2\) trainiert. Das Modell \(\mathscr {F}_{[1, 2, 3]}\) wurde nacheinander auf die Aufgaben \(\mathscr {T}_1\), \(\mathscr {T}_2\) und \(\ mathscr {T}_3\), in dieser Reihenfolge. \(\mathscr {F}_{\left\{ 1, 2, 3 \right\} }\) ist stattdessen ein statisches Modell, das mit gemischten Trainingsdaten aus allen drei Aufgaben trainiert wird. Schließlich verwenden wir \(\mathscr {F}_i(\mathscr {T}_j)\), um auf die Leistung des Modells \(\mathscr {F}_i\) zu verweisen, das auf die Testdaten der Aufgabe \(\mathscr) angewendet wird {T}_j\).
Sehr oft sind Segmentierungsdatensätze, die ähnliche Probleme untersuchen, hinsichtlich der Beschriftungsstruktur nicht einheitlich. Kontinuierliches Lernen ist nur möglich, wenn die Anmerkungen in allen Datensätzen konsistent sind. Bevor ein Modell kontinuierlich trainiert werden kann, besteht daher ein entscheidender Vorverarbeitungsschritt in der Ausrichtung der Etiketteneigenschaften.
Denken Sie zum Beispiel an das Problem der Prostatasegmentierung. Der Datensatz \(\mathscr {T}_1\) kann Anmerkungen für die Prostataklasse enthalten, die Prostatavoxel (die in der Segmentierungsmaske den Wert 1 annehmen) vom mit Nullen markierten Hintergrund unterscheiden. Der Datensatz \(\mathscr {T}_2\) kann stattdessen Anmerkungen für die zentrale Drüse (Beschriftung 1) und die periphere Zone (Beschriftung 2) enthalten, zwei Regionen, die zusammen die Prostata bilden. Ein weiterer Datensatz, \(\mathscr {T}_3\), kann Anmerkungen sowohl für die Prostata (Beschriftung 1) als auch für die Blase (Beschriftung 2) enthalten. Wir können diese Beschriftungen so ausrichten, dass sie die Struktur von Datensatz A übernehmen, indem wir Anmerkungen für die Beschriftungen 1 und 2 in Klasse 1 (Prostata) in Datensatz B und Beschriftung 2 (Blase) in Klasse 0 (Hintergrund) für Datensatz C konvertieren. Dieser Prozess ist dargestellt in Abb. 10. Ein alternatives Szenario wäre natürlich das inkrementelle Label-Lernen, bei dem die Anzahl der Labels mit der Zeit wächst. In diesem Fall würde man die separate Blasenbezeichnung in \(\mathscr {T}_3\) beibehalten.
Angleichung der Etikettenmerkmale für Prostata (Verschmelzung der zentralen Drüse und periphere Zone) und Hippocampus (Verschmelzung von Kopf und Körper).
Die Abstimmung dieser Merkmale ist entscheidend, um genügend Open-Source-Daten für eine aussagekräftige Bewertung verschiedener Anwendungsfälle zu erhalten. In Lifelong nnU-Net haben wir ein Vorverarbeitungsskript integriert, das diese Schritte einfach ausführt.
Die natürliche Alternative zum sequentiellen Training eines Modells besteht – unter unseren Einschränkungen der Datenverfügbarkeit – darin, ein Modell pro Aufgabe zu verwalten und auszuwählen, welches Modell für jedes Subjekt während der Inferenz verwendet werden soll. Diese Option stellt sicher, dass kein Vergessen auftritt, lässt jedoch jegliche Möglichkeit zur Rück- und Vorwärtsübertragung aus und erhöht den Speicherbedarf linear mit der Anzahl der Aufgaben. Mehrere Methoden des kontinuierlichen Lernens verfolgen einen Zwischenansatz: Frühere Schichten werden gemeinsam genutzt, die letzten Schichten bleiben jedoch aufgabenspezifisch25,26. Die Intuition ist, dass Multi-Head-Modelle es früheren Parametern ermöglichen, aus neuen Daten zu lernen, während die letzten Netzwerkschichten aufgabenspezifische Informationen bewahren.
Wir implementieren dieses Verhalten im Lifelong nnU-Net-Framework, wie in Abb. 11 dargestellt. Für die erste Aufgabe läuft das Training wie gewohnt ab. Bevor mit der zweiten Aufgabe trainiert wird, wird der Modellkopf nachgebildet. Anschließend wird mit dem gemeinsamen Körper und dem neuen Kopf trainiert. Dieser Vorgang wird für alle Aufgaben wiederholt. Bei der Inferenz wird für jedes Bild ein Kopf ausgewählt und mit dem gemeinsamen Körper kombiniert. Darüber hinaus bieten wir die Möglichkeit, den gemeinsamen Körper nach der ersten Trainingsphase einzufrieren und nur den/die Kopf(e) zu aktualisieren. Aus welchen Parametern sich der Kopf zusammensetzt, bestimmt der Nutzer. Für die Experimente zu Mehrkopfarchitekturen verwenden wir seg_outputs als Splitpunkt.
Während des Trainings wird der gemeinsame Körper sequentiell geändert, während der Modellkopf aufgabenspezifisch bleibt. Während der Inferenz wird der entsprechende Kopf mit dem Endzustand des gemeinsamen Körpers zusammengeführt, um eine Vorhersage zu extrahieren.
Das nnU-Net umfasst Methoden zur Datensatzvorbereitung, zum Training und zur Durchführung von Inferenzen. Die Leistung eines Validierungssatzes wird mit dem Dice-Koeffizienten überwacht, der den Schnittpunkt der für eine Klasse segmentierten Voxel in der Vorhersage A und der Ground-Truth-Darstellung B misst, normalisiert durch die Gesamtzahl der Voxel in dieser Klasse.
Unter Berücksichtigung der Anforderungen kontinuierlichen Lernens erweitern wir diese Logik um:
Ein Evaluierungsmodul zum Testen aller interessierenden Datensätze, das nach Abschluss des Trainings ausgeführt wird, und
Das erweiterte Verhalten der Leistungsverfolgung während des Trainings auf mehreren verschiedenen Validierungssätzen. Dies gibt dem Benutzer Einblick, wie sich das Training mit einer beliebigen Aufgabe (\mathscr {T}_i\) allmählich auf das Training mit der Aufgabe (\mathscr {T}_j\) auswirkt, und ermöglicht es ihm, ausdrucksstarke Trainingsverläufe so zu exportieren, wie sie visualisiert werden in Abb. 4.
Diese Änderungen ermöglichen eine schnelle Validierung kontinuierlicher Lerneinstellungen und vereinfachen die Validierung von Daten außerhalb der Verteilung, ohne dass alle Modellzustände gespeichert werden müssen.
Zusätzlich zur Beobachtung der Segmentierungsleistung in Form des Dice-Koeffizienten untersuchen wir Metriken aus der kontinuierlichen Lernforschung, die ein intuitiveres Verständnis der Ergebnisse ermöglichen.
Das Hauptziel des kontinuierlichen Lernens in der offenen Welt, in der Verteilungsverschiebungen an der Tagesordnung sind, besteht darin, eine Überanpassung an Bildeigenschaften in den letzten Stapeln zu vermeiden, damit das endgültige Modell mit Stichproben aus allen sichtbaren Quellen zurechtkommt. Neben der Vermeidung des gefürchteten katastrophalen Vergessens sollte das Modell idealerweise sowohl eine Rückwärts- als auch eine Vorwärtsübertragung41 ermöglichen und eine zuverlässige Leistung über alle Subjektgruppen hinweg gewährleisten.
Wir messen den Unterschied zwischen der Leistung eines Modells in der Aufgabe \(\mathscr {T}_i\) direkt nach dem Training mit dieser Aufgabe und nach dem Training mit weiteren Aufgaben. Wenn das Ergebnis negativ ist, deutet dies darauf hin, dass ein Vergessen stattgefunden hat. Ist das Ergebnis hingegen positiv, dann wurde die gewünschte Eigenschaft der Rückwärtsübertragung erreicht, z. B. verbessert das Training mit Aufgaben \(\mathscr {T}_{i+1}\) die Leistung bei Aufgabe \(\mathscr {T} _{ich}\).
Wir berechnen, wie vorteilhaft der Feinabstimmungsprozess für eine bestimmte Aufgabe ist, d. ausschließlich auf die Aufgabe \(\mathscr {T}_i\) trainiert. Ein positives Ergebnis bedeutet, dass das vorherige Training mit Daten aus anderen Aufgaben die Leistung des Modells nach der Feinabstimmung verbessert, und ein negatives Ergebnis bedeutet, dass das Modell nicht in der Lage ist, sich an \(\mathscr {T}_i\) anzupassen. Dieser zweite Fall kann auftreten, wenn bestimmte kontinuierliche Lernmethoden verwendet werden, die die Modellplastizität verringern. Obwohl andere Definitionen diese Metrik für alle zukünftigen Aufgaben berücksichtigen, konzentrieren wir uns auf die entsprechende Aufgabe und definieren:
Für beide Metriken geben wir die relative Leistungsänderung in Bezug auf die rechte Seite der Subtraktion an. Dadurch können wir die Leistung verschiedener Anatomien mit unterschiedlichen Segmentierungsschwierigkeiten vergleichen.
Wir trainieren ein separates Modell für jede Aufgabe und visualisieren, wie jedes Modell bei den anderen Aufgaben abschneidet (siehe Abb. 2). Dies hilft uns, die Kompatibilität zwischen Aufgaben abzuschätzen, was das kontinuierliche Lernen erleichtern sollte.
Wir beschreiben hiermit kurz die Methoden, die wir in dieser Arbeit vergleichen. Für weitere Details zur Implementierung verweisen wir den Leser auf unsere Codebasis und Dokumentation.
Die einfachste Form des lebenslangen Lernens besteht darin, Beispiele aus früheren Aufgaben in die Trainingsdaten einzubetten. Die Größe des Speicherpuffers bestimmt, wie viele solcher Samples gespeichert werden. Das Lifelong nnU-Net-Framework ermöglicht es dem Benutzer, diese Art von Training mit nur einer Codezeile durchzuführen und dabei die Aufgaben und die Größe des Speicherpuffers anzugeben. Der erforderliche Befehl ist in Abb. 12 beispielhaft dargestellt. Probe ist eine sehr effektive Strategie, die dauerhaft eine gute Leistung gewährleistet, allerdings nicht zulässig in Umgebungen, in denen die Speicherung von Trainingsbeispielen nicht möglich ist.
Befehlszeilenanweisung zum Durchführen von Training mit Probe. Ein optionales Seed-Argument kann auch verwendet werden, um Stichproben aus früheren Aufgaben auf deterministische Weise auszuwählen.
Die Ausführung anderer Methoden erfolgt auf ähnliche Weise, allerdings mit unterschiedlichen Hyperparametern.
Regularisierungsbasierte Ansätze bewerten die Wichtigkeit jedes Trainingsparameters und bestrafen die Abweichung vom vorherigen Zustand gewichtet nach der Wichtigkeit. Der Parameter \(\lambda\) gewichtet die Größe dieses Regularisierungsverlusts und des Zielverlusts (in unserem Fall für die Bildsegmentierung). Der Hauptunterschied zwischen den auf Regularisierung basierenden Methoden besteht darin, wie die Wichtigkeit berechnet wird. Die beliebte EWC-Methode25 nutzt die Fisher Information Matrix, die misst, wie weit die Modellausgaben von den One-Hot-codierten Vorhersagen entfernt sind.
Die LwF-Methode26 besteht aus drei Ausbildungsstufen. (1) Nach der Trainingsphase für Aufgabe \(\mathscr {T}_{i}\) und vor Beginn der Aufgabe \(\mathscr {T}_{i+1}\) gibt das Modell \(\mathscr { F}_{[i]}^i(\mathscr {T}_{i+1})\) werden aufgezeichnet und ein neuer Kopf für \(\mathscr {T}_{i+1}\) erstellt. (2) Anschließend werden die gemeinsam genutzten Parameter eingefroren und nur der neue Kopf trainiert. (3) Schließlich wird der gemeinsame Körper aller Köpfe verfeinert. Die im ersten Schritt aufgezeichneten Ausgaben werden zum Training vorheriger Köpfe verwendet.
Eine Kombination des zuvor eingeführten EWC mit Path Integral bildet RW27. Der Hauptunterschied zu EWC besteht in der Online-Berechnung der Fisher Information Matrix zur Bewertung der Bedeutung jedes Parameters. Durch diese Modifikation kann der zusätzliche Vorwärtsdurchlauf am Ende des Trainings zur Erlangung der Fisher-Werte entfallen.
Die speziell für die semantische Segmentierung entwickelte MiB28-Methode verwendet einen modifizierten Kreuzentropieverlust in Kombination mit einem Wissensdestillationsterm. Die Wissensdestillation wird verwendet, um die Aktivierung des aktuellen Netzwerks \(\mathscr {F}_{\theta }\) so zu erzwingen, dass sie dem vorherigen Netzwerk \(\mathscr {F}_{\theta _{i-1) ähnelt }}\).
Wir trainieren die vollaufgelöste Version des nnU-Net, die für die meisten Anwendungen24 empfohlen wird. Dabei handelt es sich um ein patchbasiertes, dreidimensionales Netzwerk. Für jeden unserer drei Anwendungsfälle werden Modelle mit jedem Datensatz für 250 Epochen trainiert.
Das nnU-Net konfiguriert automatisch Hyperparameter für die Netzwerkarchitektur und den Trainingsprozess – wie die Anzahl der Codierungsblöcke, die Lernrate und die Patchgröße – aus den Trainingsdaten. Es ist möglich, dass sich diese Parameter zwischen Datensätzen desselben Anwendungsfalls unterscheiden. In unserem Framework verwenden wir immer die für den ersten Datensatz gewählte Konfiguration. Dies ist die realistischste Wahl, da in einer echten kontinuierlichen Umgebung nur diese Daten beim Aufbau der Architektur verfügbar sind.
Sofern nicht anders angegeben, wählen wir Hyperparameter aus, die in früheren Arbeiten verwendet wurden oder die in vorläufigen Experimenten mit einem Bruchteil der Epochen vernünftige Verlustverläufe zeigten. Für das Herzexperiment testen wir mehrere Einstellungen in Tabelle 2. Für die Probe geben wir die Anzahl der Fälle aus zuvor gesehenen Aufgaben an, die in die aktuelle Aufgabe aufgenommen werden sollen, auf 25 %. Für EWC verwenden wir den Standardwert \(\lambda =0,4\), um den Regularisierungsterm zu gewichten. Im Fall von LwF haben wir die Wissensdestillationstemperatur für den Hippocampus auf 8 und für die Prostata auf 64 eingestellt. Für RW werden \(\lambda =0,4\) zur Regularisierung und \(\alpha =0,9\) zur Berechnung der Fisher-Werte verwendet. MiB verhärtet die Softlabels mit \(\alpha =0,9\) für Hippocampus und \(\alpha =0,75\) für Prostata.
Für weitere Einzelheiten verweisen wir den Leser auf unsere Codebasis und Dokumentation.
Alle in dieser Arbeit verwendeten Datensätze sind öffentlich verfügbar und Anweisungen zum Herunterladen finden Sie unter den jeweiligen Referenzen.
Unser Code ist unter https://github.com/MECLabTUDA/Lifelong-nnUNet verfügbar. Auf Wunsch ermöglichen wir Ihnen den Zugang zu den trainierten Modellen.
Johnson, C. Identifizieren häufiger Probleme bei der Akquise und Bereitstellung großer, sicherheitskritischer Softwareprojekte in den Gesundheitssystemen der USA und Großbritanniens. Sicher. Wissenschaft. 49, 735–745 (2011).
Artikel Google Scholar
Yan, W. et al. Das Domain-Shift-Problem der medizinischen Bildsegmentierung und Anbieteranpassung von unet-gan. In International Conference on Medical Image Computing and Computer-Assisted Intervention, 623–631 (Springer, 2019).
Gonzalez, C. et al. Erkennen, wenn vorab trainierte NNU-Net-Modelle bei der Segmentierung von Covid-19-Lungenläsionen stillschweigend versagen. In International Conference on Medical Image Computing and Computer-Assisted Intervention, 304–314 (Springer, 2021).
Liu, X. et al. Das medizinische algorithmische Audit. Lancet Digit Health (2022).
Food, U., Administration, D. et al. Aktionsplan für auf künstlicher Intelligenz/maschinellem Lernen (ai/ml) basierende Software als medizinisches Gerät (samd). US Food Drug Admin., White Oak, MD, USA, Tech. Rep. 145022 (2021).
Rieke, N. et al. Die Zukunft der digitalen Gesundheit mit föderiertem Lernen. NPJ-Ziffer. Med. 3, 1–7 (2020).
Artikel Google Scholar
Sheller, MJ et al. Föderiertes Lernen in der Medizin: Erleichterung multiinstitutioneller Zusammenarbeit ohne Austausch von Patientendaten. Wissenschaft. Rep. 10, 1–12 (2020).
Artikel Google Scholar
Memmel, M., Gonzalez, C. & Mukhopadhyay, A. Kontroverses kontinuierliches Lernen für die Hippocampussegmentierung in mehreren Domänen. In Domain Adaptation and Representation Transfer, and Affordable Healthcare and AI for Resource Diverse Global Health, 35–45 (Springer, 2021).
Baweja, C., Glocker, B. & Kamnitsas, K. Auf dem Weg zum kontinuierlichen Lernen in der medizinischen Bildgebung. arXiv-Vorabdruck arXiv:1811.02496 (2018).
Perkonigg, M. et al. Dynamisches Gedächtnis zur Linderung katastrophalen Vergessens beim kontinuierlichen Lernen mit medizinischer Bildgebung. Nat. Komm. 12, 1–12 (2021).
Artikel Google Scholar
Srivastava, S., Yaqub, M., Nandakumar, K., Ge, Z. & Mahapatra, D. Kontinuierliches inkrementelles Domänenlernen für die Röntgenklassifizierung des Brustkorbs in klinischen Umgebungen mit geringen Ressourcen. In Domain Adaptation and Representation Transfer, and Affordable Healthcare and AI for Resource Diverse Global Health, 226–238 (Springer, 2021).
Vokinger, KN, Feuerriegel, S. & Kesselheim, AS Kontinuierliches Lernen in Medizinprodukten: Der Aktionsplan der FDA und darüber hinaus. Lancet Digit Health 3, e337–e338 (2021).
Artikel CAS PubMed Google Scholar
Lee, CS & Lee, AY Klinische Anwendungen des kontinuierlichen maschinellen Lernens. Lancet Digit Health 2, e279–e281 (2020).
Artikel PubMed PubMed Central Google Scholar
Vokinger, KN & Gasser, U. Regulierung der KI in der Medizin in den Vereinigten Staaten und Europa. Nat. Mach. Intel. 3, 738–739 (2021).
Artikel PubMed PubMed Central Google Scholar
Prabhu, A., Torr, PH & Dokania, PK Gdumb: Ein einfacher Ansatz, der unseren Fortschritt beim kontinuierlichen Lernen in Frage stellt. In European Conference on Computer Vision, 524–540 (Springer, 2020).
Mundt, M., Hong, YW, Pliushch, I. & Ramesh, V. Eine ganzheitliche Sicht auf kontinuierliches Lernen mit tiefen neuronalen Netzen: Vergessene Lektionen und die Brücke zum aktiven und offenen Lernen in der Welt. arXiv-Vorabdruck arXiv:2009.01797 (2020).
Hsu, Y.-C., Liu, Y.-C., Ramasamy, A. & Kira, Z. Neubewertung kontinuierlicher Lernszenarien: Eine Kategorisierung und Argumentation für starke Basislinien. arXiv-Vorabdruck arXiv:1810.12488 (2018).
Lomonaco, V. et al. Avalanche: eine End-to-End-Bibliothek für kontinuierliches Lernen. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 3600–3610 (2021).
Gonzalez, C., Sakas, G. & Mukhopadhyay, A. Was ist falsch an kontinuierlichem Lernen in der medizinischen Bildsegmentierung? arXiv-Vorabdruck arXiv:2010.11008 (2020).
Michieli, U. & Zanuttigh, P. Inkrementelle Lerntechniken für die semantische Segmentierung. In Proceedings of the IEEE International Conference on Computer Vision Workshops (2019).
Cermelli, F., Mancini, M., Bulo, SR, Ricci, E. & Caputo, B. Modellierung des Hintergrunds für inkrementelles Lernen in der semantischen Segmentierung. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 9233–9242 (2020).
Nguyen, G. et al. Analyse des katastrophalen Vergessens im kontinuierlichen Lernen durch tiefe Visualisierung. arXiv-Vorabdruck arXiv:2001.01578 (2020).
Matsumoto, A. & Yanai, K. Kontinuierliches Lernen von Bildübersetzungsnetzwerken mithilfe aufgabenabhängiger Gewichtsauswahlmasken. ACPR 2, 129–142 (2019).
Google Scholar
Isensee, F., Jaeger, PF, Kohl, SA, Petersen, J. & Maier-Hein, KH nnu-net: Eine selbstkonfigurierende Methode für die Deep-Learning-basierte biomedizinische Bildsegmentierung. Nat. Methoden 18, 203–211 (2021).
Artikel CAS PubMed Google Scholar
Kirkpatrick, J. et al. Überwindung des katastrophalen Vergessens in neuronalen Netzen. Proz. Natl. Acad. Wissenschaft. 114, 3521–3526 (2017).
Artikel ADS MathSciNet CAS PubMed PubMed Central MATH Google Scholar
Li, Z. & Hoiem, D. Lernen ohne zu vergessen. IEEE Trans. Muster Anal. Mach. Intel. 40, 2935–2947 (2017).
Artikel PubMed Google Scholar
Chaudhry, A., Dokania, PK, Ajanthan, T. & Torr, PH Riemannscher Spaziergang für inkrementelles Lernen: Vergessen und Unnachgiebigkeit verstehen. In Proceedings of the European Conference on Computer Vision (ECCV), 532–547 (2018).
Cermelli, F., Mancini, M., Bulo, SR, Ricci, E. & Caputo, B. Modellierung des Hintergrunds für inkrementelles Lernen in der semantischen Segmentierung. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 9233–9242 (2020).
Verwimp, E., De Lange, M. & Tuytelaars, T. Rehearsal enthüllte: Die Grenzen und Vorzüge der erneuten Betrachtung von Proben beim kontinuierlichen Lernen. arXiv-Vorabdruck arXiv:2104.07446 (2021).
Aljundi, R., Chakravarty, P. & Tuytelaars, T. Expert Gate: Lebenslanges Lernen mit einem Expertennetzwerk. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 3366–3375 (2017).
Yushkevich, PA, Gao, Y. & Gerig, G. Itk-snap: Ein interaktives Tool zur halbautomatischen Segmentierung multimodaler biomedizinischer Bilder. Im Jahr 2016 38. Internationale Jahreskonferenz der IEEE Engineering in Medicine and Biology Society (EMBC), 3342–3345 (IEEE, 2016).
Liu, Q., Dou, Q., Yu, L. & Heng, PA Ms-net: Multi-Site-Netzwerk zur Verbesserung der Prostatasegmentierung mit heterogenen MRT-Daten. IEEE Trans. Med. Bildgebung 39, 2713–2724 (2020).
Artikel PubMed Google Scholar
Liu, Q. Ein Multi-Site-Datensatz für die Prostata-MRT-Segmentierung. https://liuquande.github.io/SAML/.
Bloch, NNCI-ISBI et al. Herausforderung: Automatisierte Segmentierung von Prostatastrukturen. Cancer Imaging Arch.https://doi.org/10.7937/K9/TCIA.2015.zF0vlOPv (2013).
Artikel Google Scholar
Lemaître, G. et al. Computergestützte Erkennung und Diagnose von Prostatakrebs basierend auf mono- und multiparametrischer MRT: Eine Übersicht. Berechnen. Biol. Med. 60, 8–31 (2015).
Artikel PubMed Google Scholar
Litjens, G. et al. Evaluierung von Prostatasegmentierungsalgorithmen für die MRT: Die PROMISE12-Herausforderung. Med. Bild Anal. 18, 359–373 (2014).
Artikel PubMed Google Scholar
Simpson, AL et al. Ein großer annotierter medizinischer Bilddatensatz für die Entwicklung und Bewertung von Segmentierungsalgorithmen. CoRRarXiv:abs/1902.09063 (2019).
Boccardi, M. et al. Trainingsbezeichnungen für die Hippocampus-Segmentierung basierend auf dem harmonisierten Hippocampus-Protokoll von eadc-adni. Alzheimer-Demenz. 11, 175–183 (2015).
Artikel Google Scholar
Kulaga-Yoskovitz, J. et al. Protokoll und Datensatz zur submillimetrischen 3-Tesla-Unterfeldsegmentierung des Hippocampus mit mehreren Kontrasten. Wissenschaft. Daten 2, 1–9 (2015).
Artikel Google Scholar
Campello, VM et al. Multizentrische, herstellerübergreifende und krankheitsübergreifende Herzsegmentierung: Die m&ms-Herausforderung. IEEE Trans. Med. Bildgebung 40, 3543–3554 (2021).
Artikel PubMed Google Scholar
Díaz-Rodríguez, N., Lomonaco, V., Filliat, D. & Maltoni, D. Vergessen Sie nicht, es gibt mehr als nur Vergessen: Neue Maßstäbe für kontinuierliches Lernen. Im Workshop zum kontinuierlichen Lernen, NeurIPS 2018 (Neural Information Processing Systems (2018).
Referenzen herunterladen
Diese Arbeit wurde vom Bundesministerium für Gesundheit (BMG) mit der Förderung EVA-KI [ZMVI1-2520DAT03A] gefördert.
Open-Access-Förderung ermöglicht und organisiert durch Projekt DEAL.
Technische Universität Darmstadt, Karolinenpl. 5, 64289, Darmstadt, Deutschland
Camila González, Amin Ranem & Anirban Mukhopadhyay
Universitätsklinikum Köln, Kerpener Str. 62, 50937, Köln, Deutschland
Daniel Pinto dos Santos
Universitätsklinikum Frankfurt, Theodor-Stern-Kai 7, 60590, Frankfurt, Deutschland
Daniel Pinto dos Santos
University Medical Center Mainz, Langenbeckstraße 1, 55131, Mainz, Germany
Ahmed Othman
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
Sie können diesen Autor auch in PubMed Google Scholar suchen
CG konzipierte die Experimente, begann mit der Entwicklung des Frameworks und analysierte die Ergebnisse. AR implementierte alle Methoden und führte die Experimente durch. DS und AO motivierten und überprüften die Problemstellung und Experimente aus klinischer Sicht. AM leitete die Entwicklung der Studie. Alle Autoren haben das Manuskript überprüft.
Korrespondenz mit Camila González.
Die Autoren geben an, dass keine Interessenkonflikte bestehen.
Springer Nature bleibt neutral hinsichtlich der Zuständigkeitsansprüche in veröffentlichten Karten und institutionellen Zugehörigkeiten.
Open Access Dieser Artikel ist unter einer Creative Commons Attribution 4.0 International License lizenziert, die die Nutzung, Weitergabe, Anpassung, Verbreitung und Reproduktion in jedem Medium oder Format erlaubt, sofern Sie den/die Originalautor(en) und die Quelle angemessen angeben. Geben Sie einen Link zur Creative Commons-Lizenz an und geben Sie an, ob Änderungen vorgenommen wurden. Die Bilder oder anderes Material Dritter in diesem Artikel sind in der Creative Commons-Lizenz des Artikels enthalten, sofern in der Quellenangabe für das Material nichts anderes angegeben ist. Wenn Material nicht in der Creative-Commons-Lizenz des Artikels enthalten ist und Ihre beabsichtigte Nutzung nicht gesetzlich zulässig ist oder über die zulässige Nutzung hinausgeht, müssen Sie die Genehmigung direkt vom Urheberrechtsinhaber einholen. Um eine Kopie dieser Lizenz anzuzeigen, besuchen Sie http://creativecommons.org/licenses/by/4.0/.
Nachdrucke und Genehmigungen
González, C., Ranem, A., Pinto dos Santos, D. et al. Lebenslanges nnU-Net: ein Rahmen für standardisiertes medizinisches kontinuierliches Lernen. Sci Rep 13, 9381 (2023). https://doi.org/10.1038/s41598-023-34484-2
Zitat herunterladen
Eingegangen: 25. Oktober 2022
Angenommen: 02. Mai 2023
Veröffentlicht: 09. Juni 2023
DOI: https://doi.org/10.1038/s41598-023-34484-2
Jeder, mit dem Sie den folgenden Link teilen, kann diesen Inhalt lesen:
Leider ist für diesen Artikel derzeit kein Link zum Teilen verfügbar.
Bereitgestellt von der Content-Sharing-Initiative Springer Nature SharedIt
Durch das Absenden eines Kommentars erklären Sie sich damit einverstanden, unsere Nutzungsbedingungen und Community-Richtlinien einzuhalten. Wenn Sie etwas als missbräuchlich empfinden oder etwas nicht unseren Bedingungen oder Richtlinien entspricht, kennzeichnen Sie es bitte als unangemessen.