Oynatma Hızı:
Text Embedding Ada 002, metin dönüşümleri için kullanılan çok yönlü bir araçtır. Veriyi özetleyen ve özelliklerine odaklanan bir dönüştürme işlemini gerçekleştirmek için kullanılır. Bu işlem, veriyi kümelere ayırma ve özelliklerini ortaya çıkarma gibi önemli araştırma yöntemlerine açık bir şekilde destek sağlar. Text Embedding Ada 002, metin verilerini daha kolay anlamak için kullanılan bir araçtır ve çoklu dil desteği de sunmaktadır.
Yeni ve Geliştirilmiş Gömme Modeli
Önemli ölçüde daha yetenekli, uygun maliyetli ve kullanımı daha basit olan yeni bir gömme modelini text-embedding-ada-002 yayınlandı. Yeni model, text-embedding-ada-002
, metin arama, metin benzerliği ve kod arama için beş ayrı modelin yerini alıyor ve %99,8 daha düşük fiyatla bir önceki en yetenekli modeli Davinci’yi çoğu görevde geride bırakıyor.
Katıştırmalar, bilgisayarların bu kavramlar arasındaki ilişkileri anlamasını kolaylaştıran, sayı dizilerine dönüştürülen kavramların sayısal temsilleridir. OpenAI /embeddings uç noktasının ilk lansmanından bu yana , birçok uygulama içeriği kişiselleştirmek, önermek ve aramak için gömmeler kullandı.
Yeni model için /embeddings uç noktasını önceki modellerde olduğu gibi OpenAI Python Kitaplığımızı kullanarak iki satır kodla sorgulayabilirsiniz:
import openai
response = openai.Embedding.create(
input="porcine pals say",
model="text-embedding-ada-002"
)
Model İyileştirmeleri
Daha güçlü performans text-embedding-ada-002
metin arama, kod arama ve cümle benzerliği görevlerinde tüm eski gömme modellerinden daha iyi performans gösterir ve metin sınıflandırmasında karşılaştırılabilir performans elde eder. Her görev kategorisi için, eski gömmelerde kullanılan veri kümelerindeki modelleri değerlendiriyoruz.
Metin Arama | Verim |
text-embedding-ada-002 | 53.3 |
text-search-davinci-*-001 | 52.8 |
text-search-curie-*-001 | 50.9 |
text-search-babbage-*-001 | 50.4 |
text-search-ada-*-001 | 49.0 |
Kod Arama | Verim |
text-embedding-ada-002 | 86.8 |
code-search-babbage-*-001 | 86.6 |
code-search-ada-*-001 | 85.5 |
Cümle Benzerliği | Verim |
text-embedding-ada-002 | 81.5 |
text-similarity-davinci-001 | 80.3 |
text-similarity-curie-001 | 80.1 |
text-similarity-babbage-001 | 80.1 |
text-similarity-ada-001 | 79.8 |
Metin sınıflandırması | Verim |
text-embedding-ada-002 | 90.1 |
text-similarity-davinci-001 | 92.2 |
text-similarity-curie-001 | 91.5 |
text-similarity-babbage-001 | 91.1 |
text-similarity-ada-001 | 89.3 |
Veri Kümesi: BEIR (ArguAna, ClimateFEVER, DBPedia, FEVER, FiQA2018, HotpotQA, NFCorpus, QuoraRetrieval, SciFact, TRECCOVID, Touche2020)
Yeteneklerin birleştirilmesi . Yukarıda gösterilen beş ayrı modeli ( , , ve ) tek bir yeni modelde birleştirerek /embeddings uç noktasının arayüzünü önemli ölçüde basitleştirdik . Bu tek temsil, çeşitli metin arama, cümle benzerliği ve kod arama kıyaslamalarında önceki gömme modellerimizden daha iyi performans gösterir.text-similaritytext-search-querytext-search-doccode-search-textcode-search-code
Daha uzun bağlam. Yeni modelin bağlam uzunluğu, 2048’den 8192’ye dört kat artırılarak uzun belgelerle çalışmayı daha kolay hale getiriyor.
Daha küçük gömme boyutu. Yeni yerleştirmeler, yerleştirme boyutunun sekizde biri olan yalnızca 1536 boyuta sahiptir ve davinci-001
bu, yeni yerleştirmeleri vektör veritabanlarıyla çalışırken daha uygun maliyetli hale getirir.
İndirimli fiyat. Yeni gömme modellerin fiyatını aynı bedendeki eski modellere göre %90 oranında düşürdük. Yeni model, eski Davinci modellerinden daha iyi veya benzer bir performansı %99,8 daha düşük bir fiyata elde ediyor.
Genel olarak, yeni gömme modeli, doğal dil işleme ve kod görevleri için çok daha güçlü bir araçtır. Müşterilerimizin kendi alanlarında daha da yetenekli uygulamalar oluşturmak için bunu nasıl kullanacaklarını görmekten heyecan duyuyoruz.
Sınırlamalar
Yeni text-embedding-ada-002
model, text-similarity-davinci-001
SentEval lineer problama sınıflandırma kriterinde daha iyi performans göstermiyor. text-similarity-davinci-001
Sınıflandırma tahmini için gömme vektörlerin üzerine hafif ağırlıklı bir doğrusal katmanın eğitilmesini gerektiren görevler için, yeni modeli karşılaştırmanızı ve en iyi performansı veren modeli seçmenizi öneririz .
Gömme modellerimizin genel sınırlamaları için yerleştirme belgelerindeki Sınırlamalar ve Riskler bölümüne bakın .
Yerleştirme API’sinin Eylemdeki Örnekleri
Kalendar AI , 340 milyon profil içeren bir veri kümesinden doğru müşterilerle doğru satış konuşmasını eşleştirmek için yerleştirmeler kullanan bir satış destek ürünüdür. Bu otomasyon, en uygun eşleşmeleri sıralamak için müşteri profillerinin yerleştirilmesi ile satış konuşmaları arasındaki benzerliğe dayanır ve eski yaklaşımlarına kıyasla istenmeyen hedeflemeyi %40-56 oranında ortadan kaldırır.
Çevrimiçi çalışma alanı şirketi olan Notion , OpenAI’nin yeni yerleştirmelerini, Notion aramasını günümüzün anahtar kelime eşleme sistemlerinin ötesinde geliştirmek için kullanacak.