LLM

Docling: converts multiple formats (PDF, DOCX, PPTX, Images, HTML) into Markdown and JSON
Microsoft Markitdown: converts various formats (PDF, Word, Excel, PPT) to Markdown (available via web interface on replit)

PDF Conversion

Grobid
Chunkr (code)

Automatic Optimization

Analogous to Gradient Descent

LLM for scoring/ranking

LLM Agents

See AI Agents.

Interfaces

Chatbot Frontend

Web (code)

Web (product)

Chatbox

Desktop GUI

AnythingLLM (docs, code): includes chat-with-docs, selection of LLM and vector db, etc.

Alternative Text Chatbot UI

Loom provides a sort of tree-like structure for LLM coming up with branched writings.
The Pantheon Interface is a new idea for how to interact with LLMs (live instance, code). In a traditional interaction, you prompt the bot and it replies in a turn-by-turn manner. Pantheon instead invites you to type out your thoughts, and various agents will asynchronously add comments or questions to spur along your brainstorming.

Conversational Audio Chatbot

Swift is a fast AI voice assistant (code, live demo) uses:
- Groq cloud running OpenAI Whisper for fast speech transcription.
- Cartesia Sonic for fast speech synthesis
- VAD to detect when user is talking
- Vercel for app deployment
RTVI-AI (code, demo), uses:
- Groq
- Llama 3.1
- Daily
- RTVI
June: Local Voice Chatbot
- Ollama
- Hugging Face Transformers (for speech recognition)
- Coqui TTS Toolkit
kyutai Moshi chatbot (demo)
Mini-Omni: Language Models Can Hear, Talk While Thinking in Streaming (model, code, demo)
2024-09Sep-11: Llama-3.1-8B-Omni (code), enabling end-to-end speech.
2024-10Oct-18: Meta Spirit LM: open source multimodal language model that freely mixes text and speech

Related Research

Language Model Can Listen While Speaking

Commercial Systems

Speech Recognition (ASR) and Transcription

Lists

Open ASR Leaderboard

Open Source

DeepSpeech
speechbrain
Kaldi
wav2vec 2.0
- Paper: Robust wav2vec 2.0: Analyzing Domain Shift in Self-Supervised Pre-Training
Whisper
- Whisper medium.en
- WhisperX (includes word-level timestamps and speaker diarization)
- Distil Large v3 with MLX
- 2024-10: whisper-large-v3-turbo distillation (demo, code)
Nvidia Canary 1B
2024-09: Nvidia NeMo
2024-10: Rev AI models for transcription and diarization
2024-10: Moonshine (optimized for resource-constrained devices)

In Browser

Whisper Timestamped: Multilingual speech recognition with word-level timestamps, running locally in browser

Phrase Endpointing and Voice Activity Detection (VAD)

I.e. how to determine when user is done talking, and bot should respond?

Notes

Audio Cleanup

Krisp AI: Noise cancellation, meeting summary, etc.

Text-to-speech (TTS)

Open Source

Parler TTS (demo)
Toucan (demo)
MetaVoice (github)
ChatTTS
Camb.ai MARS5-TTS
Coqui TTS Toolkit
Fish Speech 1.4: multi-lingual, can clone voices (video, weights, demo)
F5-TTS (demo): cloning, emotion, etc.
MaskGCT (demo)
Amphion: An Open-Source Audio, Music and Speech Generation Toolkit (code)

Cloud

Elevenlabs ($50/million characters)
- voice isolator
Cartesia Sonic
Neets AI ($1/million characters)

Vision

Visual Models

CLIP
Siglip
Supervision
Florence-2
Nvidia MambaVision
Meta Sapiens: Foundation for Human Vision Models (video input, can infer segmentation, pose, depth-map, and surface normals)

Multi-modal Models (language-vision/video)

LLaVA-NeXT-Interleave (models, demo)
SlowFast-LLaVA: A Strong Training-Free Baseline for Video Large Language Models
Nvidia NVEagle 13B, 7B (demo, preprint)
2024-08Aug-29: Qwen2-VL 7B, 2B (code, models): Can process videos up to 20 minutes in length
2024-09Sep-11: Mistral Pixtral 12B
2024-09Sep-17: NVLM 1.0
2024-12Dec-06: Nvidia NVILA: Efficient Frontier Visual Language Models

Optical character recognition (OCR)

Embedding

Time Series

Stumpy: Python library, uses near-match subsequences for similarity and forecasting
Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting
From latent dynamics to meaningful representations
Time-LLM: Time Series Forecasting by Reprogramming Large Language Models
A decoder-only foundation model for time-series forecasting
TimeGPT-1
Unified Training of Universal Time Series Forecasting Transformers
xLSTMTime : Long-term Time Series Forecasting With xLSTM
Salesforce: Moirai-MoE: Empowering Time Series Foundation Models with Sparse Mixture of Experts (code, weights, blog)

Control

PIDformer: Transformer Meets Control Theory

Forecasting

Meta Kats (code): Forecasting (ARIMA, Prophet, Holt Winters, VAR), detection, feature extraction, simulation
Context is Key: A Benchmark for Forecasting with Essential Textual Information

Data

Vector Database

Open Source

milvus (open source with paid cloud option)
Qdrant (open source with paid cloud option)
Vespa (open source with paid cloud option)
chroma
LlamaIndex
sqlite-vec

Commercial cloud

MySQL

MySQL does not traditionally have support, but:
- PlanetScale is working on it
- mysql_vss (discussion)
- tibd (discussion)

Database with Search

Typesense (code)

Web Scraping

Firecrawl
Crawl4AI: Crawl Smarter, Faster, Freely. For AI.
GitIngest: Turn any GitHub repository into a prompt-friendly text file, for inclusion in LLM's context. Available at: gitingest.com
ScrapeGraphAI: You Only Scrape Once: web scraping python library that uses LLM and direct graph logic to create scraping pipelines for websites and local documents (XML, HTML, JSON, Markdown, etc.)

Hardware

AI Acceleration Hardware

Nvidia GPUs
Google TPU
Tesla Dojo
Cerebras
Graphcore
Untether AI
SambaNova Systems
Groq
Deep Silicon: Combined hardware/software solution for accelerated AI (e.g. ternary math)
Etched: Transformer ASICs

AI tools

Contents

LLM

Open-weights LLM

For Coding

Reasoning

Cloud LLM

Multi-modal: Audio

Triage

Retrieval Augmented Generation (RAG)

Reviews

Analysis of RAG overall

Approaches

Open-source Implementations

Web-based Tools

Document Parsing

PDF Conversion

Automatic Optimization

Analogous to Gradient Descent

LLM for scoring/ranking

LLM Agents

Interfaces

Chatbot Frontend

Web (code)

Web (product)

Desktop GUI

Alternative Text Chatbot UI

Conversational Audio Chatbot

Related Research

Commercial Systems

Speech Recognition (ASR) and Transcription

Lists

Open Source

In Browser

Phrase Endpointing and Voice Activity Detection (VAD)

Audio Cleanup

Text-to-speech (TTS)

Open Source

Cloud

Vision

Visual Models

Multi-modal Models (language-vision/video)

Optical character recognition (OCR)

Embedding

Time Series

Control

Forecasting

Data

Vector Database

Open Source

Commercial cloud

MySQL

Database with Search

Web Scraping

Hardware

AI Acceleration Hardware

Cloud Training Compute

See Also

Navigation menu

Search