BOL: All

Extract the fasta sequence using ids

LEGE — Thu, 03 Oct 2024 01:27:32 -0500

#Extract sequences with names in file name.list, one sequence name per line:
seqtk subseq input.fasta name.list > output.fasta

R script to add P-Values in plots !

LEGE — Tue, 17 Sep 2024 20:23:02 -0500

library(ggplot2)
library(tidyverse)
library(ggpubr)
my_comp <- list( c("0.5", "1"), c("1", "2"), c("0.5", "2") )
ggboxplot(ToothGrowth,
 x = "dose", 
 y = "len",
 fill = "dose", 
 palette = "Dark2")+
 stat_compare_means(label = "p.format",
 comparisons = my_comp,
 method = "t.test",
 symnum.args = list(cutpoints = c(0, 0.001, 1), 
 symbols = "p < 0.001"))

Python script to parse a FASTQ file !

Abhi — Mon, 10 Jun 2024 11:20:27 -0500

#Python script to parse a FASTQ file and extract basic information such as the sequence identifier, sequence, and quality scores
#pip install biopython

from Bio import SeqIO

def parse_fastq(fastq_file):
    # Initialize a list to store parsed sequences
    sequences = []

    # Read the sequences from the FASTQ file
    for record in SeqIO.parse(fastq_file, "fastq"):
        sequence_info = {
            "id": record.id,
            "sequence": str(record.seq),
            "quality": record.letter_annotations["phred_quality"]
        }
        sequences.append(sequence_info)

    return sequences

# Example usage
fastq_file = "path/to/your/sequences.fastq"
parsed_sequences = parse_fastq(fastq_file)

# Print out the parsed sequences
for seq in parsed_sequences:
    print(f"ID: {seq['id']}")
    print(f"Sequence: {seq['sequence']}")
    print(f"Quality: {seq['quality']}")
    print()

Python script to calculate basic genome stats !

Abhi — Mon, 10 Jun 2024 11:18:32 -0500

from Bio import SeqIO

def calculate_genome_stats(fasta_file):
    # Initialize variables to store genome statistics
    genome_length = 0
    gc_count = 0
    a_count = 0
    t_count = 0
    c_count = 0
    g_count = 0

    # Read the genome sequence from the FASTA file
    for record in SeqIO.parse(fasta_file, "fasta"):
        sequence = record.seq
        genome_length += len(sequence)
        a_count += sequence.count('A')
        t_count += sequence.count('T')
        c_count += sequence.count('C')
        g_count += sequence.count('G')
        gc_count += sequence.count('G') + sequence.count('C')

    # Calculate GC content
    gc_content = (gc_count / genome_length) * 100 if genome_length > 0 else 0

    # Print genome statistics
    print(f"Genome Length: {genome_length} bp")
    print(f"A Count: {a_count}")
    print(f"T Count: {t_count}")
    print(f"C Count: {c_count}")
    print(f"G Count: {g_count}")
    print(f"GC Content: {gc_content:.2f}%")

# Example usage
fasta_file = "path/to/your/genome.fasta"
calculate_genome_stats(fasta_file)

Python script to create fastq file with random sequences

Abhi — Mon, 10 Jun 2024 08:21:32 -0500

import random

def generate_random_sequence(length):
    bases = ['A', 'C', 'G', 'T']
    return ''.join(random.choice(bases) for _ in range(length))

def generate_random_quality(length):
    return ''.join(chr(random.randint(33, 73)) for _ in range(length))

def generate_fastq_entry(sequence_length):
    sequence = generate_random_sequence(sequence_length)
    quality = generate_random_quality(sequence_length)
    return f"@SEQ_ID\n{sequence}\n+\n{quality}\n"

def generate_fastq_file(num_entries, sequence_length, file_path):
    with open(file_path, 'w') as f:
        for _ in range(num_entries):
            entry = generate_fastq_entry(sequence_length)
            f.write(entry)

# Generate a FASTQ file with 5 entries, each with a sequence length of 50 bases
generate_fastq_file(100, 50, 'random.fastq')

Commands to create conda env

LEGE — Mon, 13 May 2024 06:38:11 -0500

(base) [lege@hn1 testVisanu]$ conda create -n pythonENV python=3.10 scipy=1.13.0 astroid babel
Channels:
 - conda-forge
 - bioconda
 - defaults
Platform: linux-64
Collecting package metadata (repodata.json): done
Solving environment: done


==> WARNING: A newer version of conda exists. <==
    current version: 24.3.0
    latest version: 24.4.0

Please update conda by running

    $ conda update -n base -c conda-forge conda



## Package Plan ##

  environment location: /home/lege/miniforge3/envs/pythonENV

  added / updated specs:
    - astroid
    - babel
    - python=3.10
    - scipy=1.13.0


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    astroid-3.2.0              |  py310hff52083_0         389 KB  conda-forge
    babel-2.14.0               |     pyhd8ed1ab_0         7.3 MB  conda-forge
    libblas-3.9.0              |22_linux64_openblas          14 KB  conda-forge
    libcblas-3.9.0             |22_linux64_openblas          14 KB  conda-forge
    libgfortran-ng-13.2.0      |       h69a702a_7          24 KB  conda-forge
    libgfortran5-13.2.0        |       hca663fb_7         1.4 MB  conda-forge
    liblapack-3.9.0            |22_linux64_openblas          14 KB  conda-forge
    libopenblas-0.3.27         |pthreads_h413a1c8_0         5.3 MB  conda-forge
    numpy-1.26.4               |  py310hb13e2d6_0         6.7 MB  conda-forge
    pytz-2024.1                |     pyhd8ed1ab_0         184 KB  conda-forge
    scipy-1.13.0               |  py310h93e2701_1        15.8 MB  conda-forge
    typing-extensions-4.11.0   |       hd8ed1ab_0          10 KB  conda-forge
    typing_extensions-4.11.0   |     pyha770c72_0          37 KB  conda-forge
    ------------------------------------------------------------
                                           Total:        37.1 MB

The following NEW packages will be INSTALLED:

  _libgcc_mutex      conda-forge/linux-64::_libgcc_mutex-0.1-conda_forge 
  _openmp_mutex      conda-forge/linux-64::_openmp_mutex-4.5-2_gnu 
  astroid            conda-forge/linux-64::astroid-3.2.0-py310hff52083_0 
  babel              conda-forge/noarch::babel-2.14.0-pyhd8ed1ab_0 
  bzip2              conda-forge/linux-64::bzip2-1.0.8-hd590300_5 
  ca-certificates    conda-forge/linux-64::ca-certificates-2024.2.2-hbcca054_0 
  ld_impl_linux-64   conda-forge/linux-64::ld_impl_linux-64-2.40-h55db66e_0 
  libblas            conda-forge/linux-64::libblas-3.9.0-22_linux64_openblas 
  libcblas           conda-forge/linux-64::libcblas-3.9.0-22_linux64_openblas 
  libffi             conda-forge/linux-64::libffi-3.4.2-h7f98852_5 
  libgcc-ng          conda-forge/linux-64::libgcc-ng-13.2.0-h77fa898_7 
  libgfortran-ng     conda-forge/linux-64::libgfortran-ng-13.2.0-h69a702a_7 
  libgfortran5       conda-forge/linux-64::libgfortran5-13.2.0-hca663fb_7 
  libgomp            conda-forge/linux-64::libgomp-13.2.0-h77fa898_7 
  liblapack          conda-forge/linux-64::liblapack-3.9.0-22_linux64_openblas 
  libnsl             conda-forge/linux-64::libnsl-2.0.1-hd590300_0 
  libopenblas        conda-forge/linux-64::libopenblas-0.3.27-pthreads_h413a1c8_0 
  libsqlite          conda-forge/linux-64::libsqlite-3.45.3-h2797004_0 
  libstdcxx-ng       conda-forge/linux-64::libstdcxx-ng-13.2.0-hc0a3c3a_7 
  libuuid            conda-forge/linux-64::libuuid-2.38.1-h0b41bf4_0 
  libxcrypt          conda-forge/linux-64::libxcrypt-4.4.36-hd590300_1 
  libzlib            conda-forge/linux-64::libzlib-1.2.13-hd590300_5 
  ncurses            conda-forge/linux-64::ncurses-6.5-h59595ed_0 
  numpy              conda-forge/linux-64::numpy-1.26.4-py310hb13e2d6_0 
  openssl            conda-forge/linux-64::openssl-3.3.0-hd590300_0 
  pip                conda-forge/noarch::pip-24.0-pyhd8ed1ab_0 
  python             conda-forge/linux-64::python-3.10.14-hd12c33a_0_cpython 
  python_abi         conda-forge/linux-64::python_abi-3.10-4_cp310 
  pytz               conda-forge/noarch::pytz-2024.1-pyhd8ed1ab_0 
  readline           conda-forge/linux-64::readline-8.2-h8228510_1 
  scipy              conda-forge/linux-64::scipy-1.13.0-py310h93e2701_1 
  setuptools         conda-forge/noarch::setuptools-69.5.1-pyhd8ed1ab_0 
  tk                 conda-forge/linux-64::tk-8.6.13-noxft_h4845f30_101 
  typing-extensions  conda-forge/noarch::typing-extensions-4.11.0-hd8ed1ab_0 
  typing_extensions  conda-forge/noarch::typing_extensions-4.11.0-pyha770c72_0 
  tzdata             conda-forge/noarch::tzdata-2024a-h0c530f3_0 
  wheel              conda-forge/noarch::wheel-0.43.0-pyhd8ed1ab_1 
  xz                 conda-forge/linux-64::xz-5.2.6-h166bdaf_0 


Proceed ([y]/n)? y


Downloading and Extracting Packages:
                                                                                                    
Preparing transaction: done                                                                         
Verifying transaction: done                                                                         
Executing transaction: done                                                                         
#                                                                                                   
# To activate this environment, use                                                                 
#                                                                                                   
#     $ conda activate pythonENV                                                                    
#                                                                                                   
# To deactivate an active environment, use                                                          
#                                                                                                   
#     $ conda deactivate

Python script to finds extact similar sequence between two multi fasta files !

LEGE — Thu, 02 May 2024 02:54:56 -0500

from Bio.Blast.Applications import NcbiblastnCommandline
import os
import sys

def perform_local_blast(query_file, subject_file, output_file):
    # Set up the BLAST command with format 6 (tab-delimited)
    blastn_cline = NcbiblastnCommandline(query=query_file, subject=subject_file, out=output_file, outfmt=6,
                                          word_size=16, perc_identity=100)
    
    # Run BLAST
    stdout, stderr = blastn_cline()
    
    # Check for errors
    if stderr:
        print("Error running BLAST:")
        print(stderr)

def parse_blast_results(output_file):
    # Parse BLAST results
    with open(output_file, "r") as result_handle:
        for line in result_handle:
            fields = line.strip().split('\t')
            qseq = fields[0]  # Extract the aligned query sequence (qseq)
            #print("Aligned Query Sequence:", qseq)
            # Print other relevant information if needed

def main():
    if len(sys.argv) != 4:
        print("Usage: python script.py query.fasta subject.fasta output.txt")
        sys.exit(1)
    
    query_file = sys.argv[1]
    subject_file = sys.argv[2]
    output_file = sys.argv[3]
    
    # Perform local BLAST
    perform_local_blast(query_file, subject_file, output_file)
    
    # Parse and print BLAST results
    #parse_blast_results(output_file)

if __name__ == "__main__":
    main()

Python script to parse GFF file

LEGE — Wed, 27 Mar 2024 20:42:11 -0500

def parse_gff(gff_file):
    features = []
    with open(gff_file, 'r') as f:
        for line in f:
            if not line.startswith('#'):  # Ignore comment lines
                fields = line.strip().split('\t')
                feature = {
                    'seqid': fields[0],
                    'source': fields[1],
                    'type': fields[2],
                    'start': int(fields[3]),
                    'end': int(fields[4]),
                    'score': fields[5],
                    'strand': fields[6],
                    'phase': fields[7],
                    'attributes': dict(item.split('=') for item in fields[8].split(';'))
                }
                features.append(feature)
    return features

# Usage example
gff_file = 'example.gff'
parsed_features = parse_gff(gff_file)
for feature in parsed_features:
    print(feature)

Python script to convert fastq to fasta

LEGE — Wed, 27 Mar 2024 20:30:32 -0500

def fastq_to_fasta(fastq_file, fasta_file):
    with open(fastq_file, 'r') as fq:
        with open(fasta_file, 'w') as fa:
            while True:
                # Read four lines from the FASTQ file
                header = fq.readline().strip()
                sequence = fq.readline().strip()
                fq.readline()  # Skip the '+' line
                quality = fq.readline().strip()
                
                # Check for EOF
                if not header:
                    break
                
                # Write to the FASTA file
                fa.write('>' + header[1:] + '\n')
                fa.write(sequence + '\n')

# Usage example
fastq_to_fasta('input.fastq', 'output.fasta')

Fasta to Fastq conversion !

LEGE — Mon, 18 Mar 2024 02:41:42 -0500

seqtk seq -F '#' in.fa > out.fq

# "#" is fake score.