Question

transformation of csv file to fasta format with biostrings and r studio

0

Entering edit mode

HELEN • 0

@ba287559

Last seen 21 months ago

Greece

hello, i would like to transform a csv file which include dna sequences to fasta format, using r studio and the library biostring. The csv file has 4 columns, the name of the chromosome, the start and end of dna sequence and the strand (missing or +). What code should i use to transform this file.

DNASeq rstudio fasta Biostrings csv • 3.7k views

ADD COMMENT • link 3.3 years ago HELEN • 0

score 0 · Answer 1 · 2021-08-23

Here's a fake example.

> starts <- floor(runif(10)*1e5)

> ends <- starts + 50

> d.f <- data.frame(chr = paste0("chr", 1:10), starts = starts, ends = ends, strand = c("*", "+")[sample(1:2, 10, TRUE)])
> d.f
     chr starts  ends strand
1   chr1  17882 17932      *
2   chr2  79746 79796      +
3   chr3  41976 42026      *
4   chr4  96256 96306      +
5   chr5  79374 79424      *
6   chr6  25500 25550      *
7   chr7  54683 54733      +
8   chr8  38826 38876      +
9   chr9  18686 18736      +
10 chr10  22916 22966      *

## Err, skipped a step

> gr <- GRanges(d.f$chr, IRanges(d.f$starts, d.f$ends), d.f$strand)

> gr
GRanges object with 10 ranges and 0 metadata columns:
       seqnames      ranges strand
          <Rle>   <IRanges>  <Rle>
   [1]     chr1 17882-17932      *
   [2]     chr2 79746-79796      +
   [3]     chr3 41976-42026      *
   [4]     chr4 96256-96306      +
   [5]     chr5 79374-79424      *
   [6]     chr6 25500-25550      *
   [7]     chr7 54683-54733      +
   [8]     chr8 38826-38876      +
   [9]     chr9 18686-18736      +
  [10]    chr10 22916-22966      *
  -------
  seqinfo: 10 sequences from an unspecified genome; no seqlengths
> seqs <- getSeq(BSgenome.Hsapiens.UCSC.hg19, gr)
Error in .starfreeStrand(strand(names)) : 
  cannot mix "*" with other strand values

## URP can't use missing strand. Let's just get the forward strand

> gr <- GRanges(d.f$chr, IRanges(d.f$starts, d.f$ends))
> seqs <- getSeq(BSgenome.Hsapiens.UCSC.hg19, gr)
> seqs
DNAStringSet object of length 10:
     width seq
 [1]    51 GTGTGTGACAGGCTATATGCGCGGCCAGCAGACCTGCAGGGCCCGCTCGTC
 [2]    51 TACAGCCCCTCCAAAAAACAAAGACAGTTGGGAAGGTGTCAAATGGAGGAT
 [3]    51 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
 [4]    51 AGAGAAAGACTCCATCTCAAAAAAATAATAATAAAATAGATTTTGTAAGAA
 [5]    51 TGGCCTCGGGTTAGTAAAGAAAGAAGGAAATGCAGCAGCCTATGACCAAGA
 [6]    51 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN
 [7]    51 CTGGCCAGGCTGAGGCCCACAGTGAGTTCGTGATAAGGTAGGACCAGAGCC
 [8]    51 GGATGGGACAAGAAGAAGCTGGGCTGACAAGCCCAACATAGTGGAGCCAGC
 [9]    51 GACGGTGCTGAGTTCCCTGCACTCTCAGAAGGGACAGGCCCTATGCTGCCA
[10]    51 NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN

> writeXStringSet(seqs, "whatevs.fa")
> readLines("whatevs.fa")
 [1] ">"                                                  
 [2] "GTGTGTGACAGGCTATATGCGCGGCCAGCAGACCTGCAGGGCCCGCTCGTC"
 [3] ">"                                                  
 [4] "TACAGCCCCTCCAAAAAACAAAGACAGTTGGGAAGGTGTCAAATGGAGGAT"
 [5] ">"                                                  
 [6] "NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN"
 [7] ">"                                                  
 [8] "AGAGAAAGACTCCATCTCAAAAAAATAATAATAAAATAGATTTTGTAAGAA"
 [9] ">"                                                  
[10] "TGGCCTCGGGTTAGTAAAGAAAGAAGGAAATGCAGCAGCCTATGACCAAGA"
[11] ">"                                                  
[12] "NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN"
[13] ">"                                                  
[14] "CTGGCCAGGCTGAGGCCCACAGTGAGTTCGTGATAAGGTAGGACCAGAGCC"
[15] ">"                                                  
[16] "GGATGGGACAAGAAGAAGCTGGGCTGACAAGCCCAACATAGTGGAGCCAGC"
[17] ">"                                                  
[18] "GACGGTGCTGAGTTCCCTGCACTCTCAGAAGGGACAGGCCCTATGCTGCCA"
[19] ">"                                                  
[20] "NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN"

You can add names for each FASTA entry

> names(seqs) <- paste0("Sequence_", 1:10)
> writeXStringSet(seqs, "whatevs.fa")
> readLines("whatevs.fa")
 [1] ">Sequence_1"                                        
 [2] "GTGTGTGACAGGCTATATGCGCGGCCAGCAGACCTGCAGGGCCCGCTCGTC"
 [3] ">Sequence_2"                                        
 [4] "TACAGCCCCTCCAAAAAACAAAGACAGTTGGGAAGGTGTCAAATGGAGGAT"
 [5] ">Sequence_3"                                        
 [6] "NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN"
 [7] ">Sequence_4"                                        
 [8] "AGAGAAAGACTCCATCTCAAAAAAATAATAATAAAATAGATTTTGTAAGAA"
 [9] ">Sequence_5"                                        
[10] "TGGCCTCGGGTTAGTAAAGAAAGAAGGAAATGCAGCAGCCTATGACCAAGA"
[11] ">Sequence_6"                                        
[12] "NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN"
[13] ">Sequence_7"                                        
[14] "CTGGCCAGGCTGAGGCCCACAGTGAGTTCGTGATAAGGTAGGACCAGAGCC"
[15] ">Sequence_8"                                        
[16] "GGATGGGACAAGAAGAAGCTGGGCTGACAAGCCCAACATAGTGGAGCCAGC"
[17] ">Sequence_9"                                        
[18] "GACGGTGCTGAGTTCCCTGCACTCTCAGAAGGGACAGGCCCTATGCTGCCA"
[19] ">Sequence_10"                                       
[20] "NNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNNN"
>