8 350.87 PTS
+1.83 %
8 359.0
+1.88 %
SBF 120 PTS
6 321.43
+1.78 %
DAX PTS
24 635.30
+1.76 %
Dow Jones PTS
51 240.93
+0.77 %
29 634.97
+0.64 %
1.158
0. %

LightOn démontre la flexibilité de son modèle d'OCR en l'adaptant à la langue arabe via entraînement ciblé

| Boursier | 46 | news.votes.none

Du lourd

LightOn démontre la flexibilité de son modèle d'OCR en l'adaptant à la langue arabe via entraînement ciblé
Credits Arnaud Bivès avec IA

LightOn démontre la flexibilité de LightOnOCR-2, son modèle de compréhension documentaire, en l'adaptant à l'arabe par fine-tuning. Cette extension repose sur un pipeline interne de génération de données synthétiques, conçu pour couvrir des langues encore peu représentées dans les outils OCR du marché. Cette démonstration repose sur un jeu de données composé de 12.000 pages synthétiques et de leurs transcriptions de référence, produit à l'aide d'une version modifiée du générateur de documents synthétiques de LightOn.

Le corpus couvre une diversité de situations documentaires : artefacts de numérisation, variations de polices, niveaux de résolution et types de documents. Le format de sortie reste celui utilisé pour l'entraînement de la variante bbox de LightOnOCR-2, avec détection des boîtes englobantes, qui permettent d'associer au texte sa localisation spatiale.

Défis spécifiques

L'OCR appliqué à l'arabe présente des défis spécifiques. L'écriture s'effectue de droite à gauche, les caractères se lient en cursive, et les jeux de données ouverts comme les modèles spécialisés demeurent plus rares que pour les langues latines. Pour les organisations qui traitent des archives, des documents administratifs, juridiques ou patrimoniaux en arabe, ces limites peuvent ralentir l'automatisation des chaînes documentaires.

Cette démonstration s'inscrit dans un mouvement plus large d'extensions du modèle à des domaines variés, comme en témoignent ses plus de 3 millions de téléchargements et les fine-tunings déjà réalisés par la communauté. Elle répond notamment aux besoins rencontrés au Moyen-Orient, où LightOn est déjà présent auprès d'acteurs publics et privés. Cette évolution s'inscrit dans la continuité du positionnement de LightOn : proposer des briques d'IA générative d'entreprise, ouvertes, maîtrisables et adaptées aux environnements sensibles.

LightOn met à disposition les guides nécessaires à la reproduction de ce fine-tuning sur son espace Hugging Face, afin de rendre cette approche accessible au plus grand nombre et adaptable à d'autres contextes documentaires...

 ■

Les informations et conseils rédigés par la rédaction de Boursier.com sont réalisés à partir des meilleures sources, même si la société Boursier.com ne peut en garantir l'exhaustivité ni la fiabilité. Ces contenus n'ont aucune valeur contractuelle et ne constituent en aucun cas une offre de vente ou une sollicitation d'achat de valeurs mobilières ou d'instruments financiers. La responsabilité de la société Boursier.com et/ou de ses dirigeants et salariés ne saurait être engagée en cas d'erreur, d'omission ou d'investissement inopportun.

news.label.interest
news.votes.container.count
news.votes.container.average 0
  • 0 news.votes.details.count
  • 0 news.votes.details.count
  • 0 news.votes.details.count
  • 0 news.votes.details.count
  • 0 news.votes.details.count
NEWS.LABEL.RELATED_ARTICLES_CATEGORY
Publié le 12/06/2026

(Zonebourse.com) - Le pionnier français de l'intelligence artificielle générative pour les entreprises, a franchi une nouvelle étape stratégique. La scale-up vient de démontrer la flexibilité…

NEWS.LABEL.ALSO_IN_BD
Publié le 12/06/2026

La Bourse de New York a terminé la séance de jeudi en forte progression, portée par l'annonce de Donald Trump de renoncer aux frappes envisagées contre l'Iran après la conclusion d'un accord…

Publié le 12/06/2026

Votre rendez-vous quotidien avec les petites et moyennes capitalisations ! Chaque jour, retrouvez l’analyse d’Eric Lewin sur les valeurs Small & Mid Caps du moment qui font l’actualité.