Februar 5, 2026

HARDWARE – Läuft mein System richtig

Ich bin mir unsicher – läuft mein System normal? (CPU oder GPU)
Ich will ein neues System kaufen – was brauche ich?
Ich will eine höher auflösende Kamera kaufen – reicht mein System noch?
Ich nutze Linux und habe Probleme mit OpenCL/Treibern

SOFTWARE – Mein System ist okay, aber darktable läuft langsam

Mein System ist okay, aber darktable fühlt sich zu langsam an
Ich habe ein konkretes Problem (z.B. Hänger, extrem langsame Exporte)

https://darktable.info/performance/analyse-tools/dt-benchmark-v0-1/

https://darktable.info/performance/analyse-tools/dt-realtime-monitor/

In dem folgenden Beitrag werfen wir mit Begriffen wie CPU, GPU oder VRAM um uns. In unserem kleinen Hardware-Lexikon findest du die Erklärungen (im Zusammenhang mit darktable).

Performance-Analyse in Darktable: Den Flaschenhals finden

Die Performance-Analyse hilft dir zu verstehen, was „unter der Haube“ passiert. Hier erklären wir die wichtigsten Konzepte.

Wann und wo geht Geschwindigkeit verloren?
Warum eine schnelle GPU (allein) nicht immer die beste Lösung ist?

Performance-Einordnung: Exportgeschwindigkeit als Indikator

Ein performanter Export ist ein Indikator für die generelle Leistungsfähigkeit des Systems und stellt den Bezug zur Geschwindigkeit der interaktiven Bearbeitung in der Dunkelkammer her.

Die Bearbeitung in der Dunkelkammer erfolgt meist auf Basis einer reduzierten Vorschauauflösung, um eine direkte Rückmeldung zu ermöglichen. Der Export hingegen verarbeitet die volle Sensorauflösung und stellt somit die maximale Last für CPU und GPU dar.

Dennoch ist die wahrgenommene Arbeitsgeschwindigkeit individuell und stark von den verwendeten Modulen abhängig. Während Basis-Korrekturen (z. B. Belichtung) fast immer verzögerungsfrei laufen, können rechenintensive Module (wie Diffundieren oder Schärfen oder Entrauschen) selbst auf leistungsstarker Hardware zu spürbaren Reaktionszeiten führen.

Referenzwerte und Benchmarks
Um die eigene Systemleistung objektiv einordnen zu können, dienen unsere Benchmarks als Richtwert. Wir unterscheiden hierbei zwei Szenarien, um unterschiedliche Hardware-Anforderungen abzubilden:

24 Megapixel: Der Standardfall für viele Kameras, bei dem moderne Systeme sehr kurze Exportzeiten erreichen sollten.
61 Megapixel: Ein Hochlast-Szenario für hochauflösende Sensoren, das Schwächen bei CPU, GPU und Speicherbandbreite deutlicher aufzeigt.

Vergleiche deine Zeiten mit diesen Werten, um zu prüfen, ob dein System (insbesondere die OpenCL-Beschleunigung) optimal konfiguriert ist.

Die Pixelpipe: Ein Fließband für Daten

Du kannst dir die Bearbeitung in Darktable wie ein Fließband vorstellen. Das Bild wird von Modul zu Modul gereicht (z.B. Entrastern -> Belichtung -> Weißabgleich -> Tone Mapping (z.B. AgX).

Das Ziel ist es, das Bild einmal auf die Grafikkarte (GPU) zu laden, dort alle Schritte abzuarbeiten und das fertige Bild zu exportieren. Nicht alle Module lassen sich effizient auf der GPU ausführen, sondern verwenden stattdessen die CPU.

Weshalb geht Geschwindigkeit verloren?

CPU-Only (kein OpenCl)

Moderne Bildbearbeitungsalgorithmen führen Millionen von Berechnungen pro Pixel durch.

Eine CPU hat wenige, sehr komplexe Kerne (z.B. 16 Kerne).
Eine GPU hat tausende, simple Kerne (z.B. 4000 Shader-Einheiten).

Für die Bildbearbeitung, in der jedes Pixel parallel bearbeitet werden kann, ist die GPU der CPU meistens überlegen. Die Performance-Analyse zeigt den Unterschied: Ein Export, der auf der GPU 2s dauert, kann auf der CPU 40s benötigen.

Der „Ping-Pong“-Effekt (CPU vs. GPU)

Ein häufiger Flaschenhals für die Performance ist nicht zwingend eine zu langsame GPU, sondern der Transport von Daten zwischen GPU und CPU und der Berechnung auf der CPU.

Idealfall: Bild -> GPU -> Modul A -> Modul B -> Modul C -> Ausgabe.
Problemfall: Bild -> GPU -> Modul A -> CPU-Modul (Daten müssen zurück in den RAM) -> CPU rechnet -> Zurück zur GPU -> Modul C.

Ein einziges Modul, das nicht auf der GPU läuft (oder bei dem OpenCL deaktiviert ist), kann die gesamte Pipeline ausbremsen.

Die Abbildung rechts zeigt ein Beispiel für die Unterschiede der Verarbeitungszeit zwischen GPU und CPU.

Wann kommt es zu diesem Problem?

Das Modul hat keine OpenCl Unterstützung: Die Bearbeitung erfolgt somit auf der CPU.
Die GPU hat zu wenig Speicher (VRAM) für ein Modul:
Nicht jedes Modul kann Tiling (nächster Abschnitt) verwenden, reicht der Speicher der GPU nicht aus, gibt es nur den Umweg über die CPU.

Tiling (Kachelung)

Grafikkarten haben sehr schnellen, aber begrenzten Speicher (VRAM). Ein 24-Megapixel-Bild belegt im VRAM, während der Bearbeitung, oft mehrere Gigabyte.

Was passiert? Wenn das Bild nicht am Stück in den VRAM der GPU passt, zerlegt Darktable es in Kacheln (Tiles).
Der Nachteil: Jede Kachel muss einzeln berechnet werden. Damit man keine Kanten sieht, müssen (meistens) die Kacheln überlappen („Ghosting“). Diese Überlappungsbereiche werden also doppelt berechnet.
Die Folge: Tiling ermöglicht zwar den Export großer Bilder auf kleinen Grafikkarten, kostet aber oft Performance.

Die Treiber-Schnittstellen: Wer spricht mit der Hardware?

Darktable nutzt OpenCL (oder Nvidia Cuda), um mit der Grafikkarte zu sprechen. Doch wie OpenCL umgesetzt wird, macht einen Unterschied.

Beispie: AMD RX 9060 XT mit 8GB (gfx1200) – OpenCl-Mesa (RustiCl) vs. ROCm

Wichtig: Das Beispiel liefert keine Aussage darüber ob ROCm generell schneller ist als OpenCl-Mesa (RustiCl)! Je nach System kann das unterschiedlich sein.

Beispiel AMD 7945HX 64GB + RX 9060XT 8GB – ROCm schneller
Beispiel AMD Ai 395 Max+ – RustiCl schneller

ROCm (Radeon Open Compute)

Dies ist AMDs moderner Ansatz für High-Performance-Computing unter Linux.

Vorteil: Oft sehr schnell und stabil bei neueren Karten (RX 6000/7000/9000 Serie). Nutzt die Hardware sehr effizient.
Nachteil: Offiziell nur für bestimmte Distributionen und Karten unterstützt, manchmal frickelig bei der Installation.

RustiCl (OpenCl-Mesa)

Ein neuerer, in der Sprache Rust geschriebener OpenCL-Treiber, der Teil des Mesa-Projekts ist.

Vorteil: Funktioniert oft „Out of the Box“ auf vielen Linux-Systemen und unterstützt auch ältere Hardware oder integrierte Grafikeinheiten (iGPUs), die von den proprietären Treibern nicht mehr gepflegt werden.
Performance: Inzwischen oft auf Augenhöhe mit den proprietären Treibern, manchmal sogar schneller bei spezifischen Aufgaben und Hardware.

Proprietäre Treiber (AMD Pro / Nvidia)

Nvidia: Hier gibt es kaum Alternativen. Der proprietäre Treiber ist extrem ausgereift und performant.
AMD Pro: Meist solide, aber unter Linux wird er zunehmend von ROCm oder Rusticl verdrängt.

Wie hilft mir die Analyse weiter?

Die Analyse dient als Diagnose-Werkzeug: Wenn DT stockt oder der Export zu lange dauert, siehst du hier sofort, welche Komponente (CPU, GPU oder RAM) der Flaschenhals ist. Damit kannst du gezielt dort ansetzen, wo deine Hardware limitiert oder ein Grafiktreiber fehlt (CPU only).

Handlungsmöglichkeiten

Bei der Arbeit in darktable:

OpenCl aktivieren
Module temporär deaktivieren: Schalte rechenintensive Module, die für den Look im Moment nicht entscheidend sind (z. B. Diffundieren oder Schärfen, Entrauschen, Chromatische Aberrationen), erst ganz am Ende der Bearbeitung ein oder lass sie ganz aus. Das hält die Vorschau flüssig.
Wichtig: Die Reihenfolge der Module in der Pixelpipe von DT ist fest vorgegeben. Auch wenn du ein Modul „später“ einschaltet, wird es an der technisch korrekten Stelle berechnet – es lohnt sich also, die „schweren Brocken“ bis zum Schluss deaktiviert zu lassen.
OpenCL-Treiber (Linux/AMD): Teste, ob deine AMD-Karte mit dem ROCm-Treiber oder dem neueren RustiCl-Stack besser läuft. Ein einfacher A/B-Test der Exportzeit, bringt hier schnell Klarheit.
iGPU-Speichermanagement: Falls du keine dedizierte Grafikkarte verwendest, weise der iGPU, im BIOS, mehr System-RAM zu. Während 4GB für einfache Bearbeitungen reichen, sind 8GB oder 16GB bei hochauflösenden Sensoren und komplexen Modulen deutlich schneller.

Beim Export:

Skalierung beim Export: Hier ändert sich wenig.
OpenCL-Priorisierung: Stelle in den DT-Einstellungen sicher, dass die GPU beim Export bevorzugt wird (Profil „Sehr schnelle GPU“ oder „Mehrere GPUs“), um die CPU zu entlasten.