Bioinformatische Instrumente

Werkzeuge für die Analyse großer "Omics"-Daten (Z01)

Watchdog ist ein Workflow-Management-System für die automatisierte und verteilte Analyse umfangreicher Omics-Daten, wie sie in DEEP-DV erzeugt werden.

Die Watchdog-Software selbst ist verfügbar unter: https://github.com/klugem/watchdog

Workflows für die Analyse von Omics-Daten sind verfügbar unter: https://github.com/watchdog-wms/watchdog-wms-workflows

Kluge M, Friedel CC. Watchdog – a workflow management system for the distributed analysis of large-scale experimental data. BMC Bioinformatics. Mar 2018. 19(1):97. (»DOI: 10.1186/s12859-018-2107-4.) PDF

Kluge M, Friedl MS, Menzel AL, Friedel CC. Watchdog 2.0: New developments for reusability, reproducibility, and workflow execution. Gigascience. Jun 2020.9(6):giaa068.
(»DOI: 10.1093/gigascience/giaa068) PDF

Wir haben eine Pipeline entwickelt, die automatisch genomische Varianten in viralen Genomen identifiziert anhand von Sequenzierdaten aus der funktionellen Genomik, wie z. B. RNA-seq, ATAC-seq oder ähnlichem. Dazu gehören sowohl SNPs als auch Insertionen und Deletionen, die entweder natürlich vorkommen können oder absichtlich eingeführt wurden, um bestimmte virale Gene auszuschalten. Die Pipeline bietet außerdem eine Option zur Identifizierung des Virusstamms, wenn ein Satz von Referenz-SNPs für verschiedene Stämme zur Verfügung steht.

Die Pipeline ist als Workflow (VariantCallerPipeline) für Watchdog implementiert und verfügbar unter: https://github.com/watchdog-wms/watchdog-wms-workflows 

RegCFinder identifiziert automatisch Unterregionen von genomischen Eingabefenstern (z. B. Promotoren, Gene, Enhancer) mit Unterschieden in der Verteilung von Sequenzier-Reads zwischen zwei Bedingungen. Es kann auf jede Art von Omics-Daten angewandt werden und eignet sich daher für ein breites Spektrum von Anwendungen.

RegCFinder ist als Workflow für Watchdog implementiert und verfügbar unter: https://github.com/watchdog-wms/watchdog-wms-workflows

Weiß E, Friedel CC. RegCFinder: targeted discovery of genomic subregions with differential read density. Bioinform Adv. Jul 2023. 3(1):vbad085.
(»DOI: 10.1093/bioadv/vbad085) PDF

ContextMap2 ist ein Read-Aligner für RNA-seq Daten, der parallel gegen mehrere Genomsequenzen, einschließlich Wirts- und Virusgenomen, alignieren kann. Darüber hinaus ermöglicht er die Erkennung von Poly(A)-Stellen aus Sequenzier-Reads, insbesondere für virale Poly(A)-Stellen.

ContextMap2 ist verfügbar unter: https://github.com/friedel-lab/ContextMap2

Bonfert T, Csaba G, Zimmer R, Friedel CC. A context-based approach to identify the most likely mapping for RNA-seq experiments. BMC Bioinformatics. Apr 2012. 13 Suppl 6(Suppl 6):S9.
(»DOI: 10.1186/1471-2105-13-S6-S9.) PDF

Bonfert T, Csaba G, Zimmer R, Friedel CC. Mining RNA-seq data for infections and contaminations. PLoS One. Sep 2013. 8(9):e73071.
(»DOI: 10.1371/journal.pone.0073071.) PDF

Bonfert T, Kirner E, Csaba G, Zimmer R, Friedel CC. ContextMap 2: fast and accurate context-based RNA-seq mapping. BMC Bioinformatics. Apr 2015. 16:122.
(»DOI: 10.1186/s12859-015-0557-5.) PDF

Bonfert T, Friedel CC. Prediction of Poly(A) Sites by Poly(A) Read Mapping. PLoS One. Jan 2017. 12(1):e0170914.
(»DOI: 10.1371/journal.pone.0170914.) PDF

Werkzeuge für die Analyse von SLAM-seq-Daten und anderen RNA-Seq-Ansätzen mit Nukleotid-Konversion (P02)

GRAND-SLAM ist ein Werkzeug zur Schätzung des Verhältnisses von neuer zu gesamter RNA (NTR) aus SLAM-seq-Daten und anderen RNA-seq-Techniken, bei denen Nukleotide künstlich konvertiert werden. Ausgehend von den gemappten Reads aller Proben (Replikate, Bedingungen usw.) oder Zellen (im Falle der Einzelzellsequenzierung) eines Experiments generiert es eine Tabelle mit den Read-Zahlen, NTRs und ihren Posterior-Verteilungen (die die Unsicherheit bei der Schätzung der NTRs widerspiegeln) für alle Proben und alle Gene.

GRAND-SLAM ist Teil des GEDI-Toolkits und erhältlich unter: https://github.com/erhard-lab/gedi

Jürges C, Dölken L, Erhard F. Dissecting newly transcribed and old RNA using GRAND-SLAM. Bioinformatics. Jul 2018. 34(13):i218-i226. (»DOI:10.1093/bioinformatics/bty256) PDF

Erhard F, Baptista MAP, Krammer T, Hennig T, Lange M, Arampatzi P, Jürges CS, Theis FJ, Saliba AE, Dölken L. scSLAM-seq reveals core features of transcription dynamics in single cells. Nature. Jul 2019. 571(7765):419-423. (»DOI:10.1038/s41586-019-1369-y) PDF

Erhard F. Two-Step Parameter Estimation for Read Feature Models. Künstl Intell. Jan 2024.
(»DOI:10.1007/s13218-023-00821-w) PDF 

grandRescue ist eine Software zur Umgehung von Mapbarkeits-Problemen und zur Korrektur von Bias bei der Quantifizierung in SLAM-seq-Daten und anderen anderen RNA-seq-Techniken, bei denen Nukleotide künstlich konvertiert werden. Um dies zu erreichen, aligniert grandRescue zuvor nicht mappbare Reads auf eine T-to-C-Mismatch-unabhängige Weise.

GrandRescue ist verfügbar unter https://github.com/erhard-lab/grandRescue.

Berg K, Lodha M, Delazer I, Bartosik K, Garcia YC, Hennig T, Wolf E, Dölken L, Lusser A, Prusty BK, Erhard F. Correcting 4sU induced quantification bias in nucleotide conversion RNA-seq data. Nucleic Acids Res.  Apr 2024. 52(7):e35.
(»DOI:10.1093/nar/gkae120) PDF 

Nach der primären Verarbeitung durch GRAND-SLAM stellt das R-Paket grandR spezielle Werkzeuge für die weitere Analyse von SLAM-seq-Daten zur Verfügung. grandR bietet eine umfassende Toolbox für die Qualitätskontrolle, kinetische Modellierung, differenzielle Genexpressionsanalyse und Visualisierung solcher Daten. Es bietet eine Schnittstelle zu Seurat für Einzelzellanalysen und eine webbasierte Visualisierung über Shiny.

GrandR ist auf CRAN und unter https://grandr.erhard-lab.de/ verfügbar.

Rummel T, Sakellaridi L, Erhard F. grandR: a comprehensive package for nucleotide conversion RNA-seq data analysis. Nat Commun. Jun 2023. 14(1):3559.
(»DOI:10.1038/s41467-023-39163-4) PDF

iTiSS (integrated Transcriptional start site caller) ist eine Methode zur Identifizierung von Transkriptionsstartstellen (TiSS) aus verschiedenen TiSS-profiling-Experimenten mit einem zusätzlichen integrativen Modul zur Kombination und Entfernung artefaktischer TiSS in einzelnen Datensätzen.

iTiSS ist verfügbar unter https://github.com/erhard-lab/iTiSS.

Jürges CS, Dölken L, Erhard F. Integrative transcription start site identification with iTiSS. Bioinformatics. Sep 2021. 37(18):3056-3057. (»DOI:10.1093/bioinformatics/btab170) PDF

LFC ist ein Werkzeug zur Schätzung von log fold changes und Pseudocounts für RNA-seq-Experimente. Es liefert nicht nur Punktschätzungen, sondern berechnet auch Posterior-Wahrscheinlichkeiten von log fold changes.

LFC ist in CRAN und unter https://github.com/erhard-lab/lfc verfügbar.

Erhard F, Zimmer R. Count ratio model reveals bias affecting NGS fold changes. Nucleic Acids Res. Jul 2015. 43(20):e136-e136. (»DOI:10.1093/nar/gkv696) PDF

Erhard F. Estimating pseudocounts and fold changes for digital expression measurements. Bioinformatics. Dec. 2018.34(23):4054-4063. (»DOI:10.1093/bioinformatics/bty471) PDF

Werkzeuge für die Multi-Omics Integration durch räumliche Bildregistrierung. (P03)

VoltRon ist ein räumliches Analysewerkzeug für Multi-Omics Integration durch räumliche Bildregistrierung. VoltRon ist auch in der Lage, verschiedene Arten von räumlichen Datenmodalitäten zu analysieren.

  • Die einzigartige Datenstruktur von VoltRon ermöglicht es dem Benutzer, Gewebeblöcke, Schichten und mehrere Assay-Typen nahtlos in einem R-Objekt zu definieren.
  • Eine durchgängige Datenanalyse für verschiedene Technologien der räumlichen Biologie wird unterstützt. VoltRon visualisiert und analysiert Regionen von Interesse (ROIs), Spots, Zellen, Moleküle und Kacheln (in Entwicklung).
  • Die automatische Bildregistrierung verwendet OpenCV (vollständig in das Paket integriert, unter Verwendung von Rcpp), um gemeinsame Merkmale in Bildern zu erkennen und die Registrierung durchzuführen. Der Benutzer kann mit den integrierten Mini-Shiny-Anwendungen interagieren, um die Ausrichtungsparameter zu ändern und die Genauigkeit der Ausrichtung zu überprüfen.
  • Die manuelle Bildregistrierung unterstützt den Benutzer bei der Auswahl gemeinsamer Merkmale in räumlichen Datensätzen mit Hilfe von Referenzbildern, die in VoltRon-Objekten gespeichert sind. Wenn die automatische Bildregistrierung nicht funktioniert, können die Bilder immer noch durch die manuelle Auswahl von Passpunkten ausgerichtet werden.
  • Niche Clustering ermöglicht die Integration in Einzelzell-RNA-Analysedatensätze unter Verwendung von Seurat, SingleCellExperiment und spacexr für die Spot-Dekonvolution. Die geschätzten Zelltyp-Häufigkeiten werden dann verwendet, um Spots in Gruppen von Zelltyp-Nischen zu clustern, die als Spots mit unterschiedlichen Zelltyp-Zusammensetzungen definiert sind.

VoltRon ist erhältlich unter: https://bioinformatics.mdc-berlin.de/VoltRon/index.html