Cohere's Embed Models (Details and Application)

Embed models can be used to generate embeddings from text or classify it based on various parameters. Embeddings can be used for estimating semantic similarity between two texts, choosing a sentence which is most likely to follow another sentence, or categorizing user feedback. When used with the Classify endpoint, embeddings can be used for any classification or analysis task.

Latest Model	Description	Modality	Dimensions	Max Tokens (Context Length)	Similarity Metric	Endpoints
`embed-v4.0`	A model that allows for text and images to be classified or turned into embeddings	Text, Images, Mixed texts/images (i.e. PDFs)	One of ‘[256, 512, 1024, 1536 (default)]‘	128k	Cosine Similarity, Dot Product Similarity, Euclidean Distance	Embed
`embed-english-v3.0`	A model that allows for text to be classified or turned into embeddings. English only.	Text, Images	1024	512	Cosine Similarity, Dot Product Similarity, Euclidean Distance	Embed, Embed Jobs
`embed-english-light-v3.0`	A smaller, faster version of `embed-english-v3.0`. Almost as capable, but a lot faster. English only.	Text, Images	384	512	Cosine Similarity, Dot Product Similarity, Euclidean Distance	Embed, Embed Jobs
`embed-multilingual-v3.0`	Provides multilingual classification and embedding support. See supported languages here.	Text, Images	1024	512	Cosine Similarity, Dot Product Similarity, Euclidean Distance	Embed, Embed Jobs
`embed-multilingual-light-v3.0`	A smaller, faster version of `embed-multilingual-v3.0`. Almost as capable, but a lot faster. Supports multiple languages.	Text, Images	384	512	Cosine Similarity, Dot Product Similarity, Euclidean Distance	Embed, Embed Jobs

List of Supported Languages

Our multilingual embed model supports over 100 languages, including Chinese, Spanish, and French.

ISO Code	Language Name
af	Afrikaans
am	Amharic
ar	Arabic
as	Assamese
az	Azerbaijani
be	Belarusian
bg	Bulgarian
bn	Bengali
bo	Tibetan
bs	Bosnian
ca	Catalan
ceb	Cebuano
co	Corsican
cs	Czech
cy	Welsh
da	Danish
de	German
el	Greek
en	English
eo	Esperanto
es	Spanish
et	Estonian
eu	Basque
fa	Persian
fi	Finnish
fr	French
fy	Frisian
ga	Irish
gd	Scots_gaelic
gl	Galician
gu	Gujarati
ha	Hausa
haw	Hawaiian
he	Hebrew
hi	Hindi
hmn	Hmong
hr	Croatian
ht	Haitian_creole
hu	Hungarian
hy	Armenian
id	Indonesian
ig	Igbo
is	Icelandic
it	Italian
ja	Japanese
jv	Javanese
ka	Georgian
kk	Kazakh
km	Khmer
kn	Kannada
ko	Korean
ku	Kurdish
ky	Kyrgyz
La	Latin
Lb	Luxembourgish
Lo	Laothian
Lt	Lithuanian
Lv	Latvian
mg	Malagasy
mi	Maori
mk	Macedonian
ml	Malayalam
mn	Mongolian
mr	Marathi
ms	Malay
mt	Maltese
my	Burmese
ne	Nepali
nl	Dutch
no	Norwegian
ny	Nyanja
or	Oriya
pa	Punjabi
pl	Polish
pt	Portuguese
ro	Romanian
ru	Russian
rw	Kinyarwanda
si	Sinhalese
sk	Slovak
sl	Slovenian
sm	Samoan
sn	Shona
so	Somali
sq	Albanian
sr	Serbian
st	Sesotho
su	Sundanese
sv	Swedish
sw	Swahili
ta	Tamil
te	Telugu
tg	Tajik
th	Thai
tk	Turkmen
tl	Tagalog
tr	Turkish
tt	Tatar
ug	Uighur
uk	Ukrainian
ur	Urdu
uz	Uzbek
vi	Vietnamese
wo	Wolof
xh	Xhosa
yi	Yiddish
yo	Yoruba
zh	Chinese
zu	Zulu

Frequently Asked Questions

What is the Context Length for Cohere Embeddings Models?

You can find the context length for various Cohere embeddings models in the tables above. It’s in the “Max Tokens (Context Length)” column.