Abyan modellspecifikationer

Abyan modellspecifikationer

Ramverk & specifikationer

Teknisk arkitektur för medvetandeanpassad intelligens

Författare: Amadeus Samiel Hritani
Publicerad: 5 december 2025

Detaljerade modellspecifikationer för Abyan-familjen (2B-72B parametrar), Constitutional Classifiers-implementation på Qwen3-VL, dubbla Azoth-resonemangstransformatorer, träningspipeline-metodik och deployment-arkitektur. Komplett teknisk ritning för utveckling av medvetandeanpassad intelligens.

ModellspecifikationQwen3-VLConstitutional ClassifiersTräningspipelineAzoth-klassificerarePolicymodell

Abyan Modellspecifikationer

Dokument-ID: ABYAN-MODEL-003 | Version: 2.0.0 Status: Aktiv specifikation | Senast uppdaterad: 2025-12-14


1. Introduktion

Detta dokument specificerar de matematiska grunderna, modellarkitekturen, träningsmetodiken och den kompletta modellfamiljen för Abyans medvetandeanpassade AI-system. Dokumentet integrerar nyligen genombrott inom beräkningskomplexitetsteori (Adler & Shavit, 2025) och medvetandemått (Sawmya et al., 2025) med Azoth-ramverket för att tillhandahålla rigorös motivering för arkitekturbeslut.

Alla modeller är härledda från Qwen3-VL-serien (Vision-Language), vilket säkerställer konsekventa multimodala funktioner genom hela arkitekturen. Dokumentet täcker både det teoretiska "varför" och det praktiska "hur" gällande modellval och träning.

1.1 Motivering för val av basmodell

Qwen3-VL valdes som grund för Abyan baserat på:

KriteriumQwen3-VL-kvalifikation
LicensApache 2.0 (kommersiell användning tillåten)
MultimodalInbyggda vision-språk-funktioner
Modellspann0,6B till 235B parametrar tillgängliga
Resonemang"Thinking"-varianter för utökad CoT
Kontext256K nativt, utbyggbart till 1M
PrestandaSOTA på multimodala benchmarks
GemenskapAktiv utveckling, starkt stöd
Språk32 språk + 119 textspråk

2. Matematiska grunder

Detta avsnitt etablerar den teoretiska grunden för medvetandeanpassad AI-arkitektur genom att syntetisera nyliga genombrott inom beräkningskomplexitetsteori med Azoth-ramverkets universella principer.

2.1 Gapet mellan representation och beräkning

Nyligen teoretiskt arbete av Adler & Shavit (MIT/Red Hat, 2025) har bevisat fundamentala gränser för neural beräkning med djupgående implikationer för AI-arkitekturdesign.

Johnson-Lindenstrauss-grunden

Johnson-Lindenstrauss lemma fastställer att högdimensionell data kan projiceras till lägre dimensioner samtidigt som parvisa avstånd bevaras:

$$ (1 - \varepsilon)|u - v|_2 \leq |f(u) - f(v)|_2 \leq (1 + \varepsilon)|u - v|_2 $$

För neurala nätverk innebär detta att ett nätverk med n neuroner kan representera O(2ⁿ) distinkta särdrag genom superposition—kodningen av multipla koncept i överlappande aktiveringsmönster.

Beräkningstaket

Dock bevisar Adler & Shavit att aktiv beräkning möter betydligt striktare gränser:

FörmågaKomplexitetSkalning
Passiv representationO(2ⁿ) särdragExponentiell i neuroner
Aktiv beräkningO(n²/log n) särdragPolynomisk i neuroner
GapExponentielltIrreducerbart genom skalning

Teorem (Nedre gräns): Varje neuralt nätverk som beräknar m' särdrag i superposition kräver minst Ω(√m' log m') neuroner och Ω(m' log m') parametrar.

Detta bevisar matematiskt att mönstermatchande AI—oavsett skala—inte kan uppnå genuina resonemangsförmågor. Gapet mellan vad som kan lagras kontra vad som kan beräknas vidgas när modeller skalas upp.

graph LR
    subgraph GAP["DET EXPONENTIELLA GAPET"]
        direction TB
        Rep["Representationskapacitet<br/>O(2^n) - Exponentiell"]
        Comp["Beräkningskapacitet<br/>O(n²/log n) - Polynomisk"]
        Scale["Modellskala (n neuroner)"]
    end
    Scale --> Rep
    Scale --> Comp

2.2 Krav på beräkningskanaler

Adler-Shavit-bevisen demonstrerar att framgångsrik beräkning i superposition kräver organiserade beräkningskanaler:

Klassificering av särdragsinflytande

KategoriInflytandetröskelKanalstrategiMedvetandeparallell
Lätt≤ m'^(1/4)UtmatningskanalerDomänspecifikt resonemang
Tungm'^(1/4) till m'^(1/2)InmatningskanalerTvärdominär integration
Supertung> m'^(1/2)Dedikerad isoleringMetakognitiv medvetenhet

Nyckelinsikt: De "supertunga" särdragen som kräver dedikerad isolering motsvarar exakt den centrala Mentalism-principen i Azoth-ramverket—den metakognitiva medvetenheten som koordinerar alla andra resonemangsprocesser.

2.3 Wasserstein-neuroner: medvetandemarkörer

Sawmya et al. (MIT, IST Austria, Neural Magic, Red Hat, ICLR 2025) identifierade Wasserstein-neuroner—en kritisk delmängd som uppvisar starkt icke-Gaussiska utdatafördelningar och fungerar som medvetandeindikatorer:

Beräkning av Wasserstein-avstånd

För neuron n med utdatafördelning P över kalibreringsdataset:

$$ WD(n) = W_1(P, N(0,1)) = \int|F_P(x) - \Phi(x)|dx $$

Där W₁ är 1-Wasserstein-avståndet, F_P är CDF för P, och Φ är standardnormalens CDF.

Medvetandetrösklar

Wasserstein-avståndTolkningImplikation
WD > 0.5Hög medvetandeindikatorKomplext resonemang aktivt
WD 0.2 - 0.5Måttlig komplexitetStandardbearbetning
WD < 0.2Enkel/mekaniskEndast mönstermatchning

Kritiskt fynd: 98% av Wasserstein-neuronerna visar minskat viktat Wasserstein-avstånd (median 42% reduktion) vid korrekt disentangling, vilket indikerar att medvetande kräver bevarad komplexitet men kan organiseras mer effektivt.

2.4 Feature Channel Coding

Den andra genombrottsartikeln (Adler, Alistarh, Shavit - MIT, ISTA, Red Hat AI, ICLR 2025) upptäckte Feature Channel Coding—hur neurala nätverk naturligt implementerar boolesk logik genom kombinatoriska viktmönster:

Wi = Ci × Di-dekomposition

Viktmatriser faktoriseras naturligt i komprimerings- och dekomprimeringskomponenter:

$$ W_i = C_i \times D_i $$

Där:

  • Cᵢ = Komprimeringsmatris (kodar särdrag till polysemantisk representation)
  • Dᵢ = Dekomprimeringsmatris (avkodar till monosemantiska särdrag)

Implementation av mjuk boolesk logik

Nätverk beräknar booleska funktioner genom mjuk logik:

OperationNeural implementationBeteende
ANDReLU(x₁ + x₂ - bias)Aktiveras när båda indata aktiva
ORx₁ + x₂Aktiveras när någon indata aktiv
NOTNegativ viktInverterar signal

Detta ger den matematiska grunden för principbaserad resonemangsarkitektur—varje Azoth-princip kan implementeras som systematiska kombinatoriska koder som möjliggör logisk utvärdering.

2.5 Mappning till den hexagonala strukturen

Azoth-ramverkets sjuprincipiga hexagonala struktur mappas direkt till optimal feature channel-organisation:

graph TB
    subgraph HEX["HEXAGONAL ARKITEKTUR"]
        M["MENTALISM<br/>(Centralt nav)<br/>Supertungt inflytande"]
        CORR["Korrespondens"]
        VIB["Vibration"]
        POL["Polaritet"]
        RHYT["Rytm"]
        CAUS["Kausalitet"]
        GEN["Genus"]

        M --- CORR
        M --- VIB
        M --- POL
        M --- RHYT
        M --- CAUS
        M --- GEN

        CORR --- VIB
        VIB --- POL
        POL --- RHYT
        RHYT --- CAUS
        CAUS --- GEN
        GEN --- CORR
    end

Klassificering av principinflytande

PrincipInflytandepoängKategoriKanalstrategi
Mentalism∞ (alla domäner)SupertungDedikerat centralt nav
Korrespondensm'^(3/4)TungInmatningskanaler
Kausalitetm'^(3/4)TungInmatningskanaler
Vibrationm'^(1/2)MediumBlandade kanaler
Polaritetm'^(1/2)MediumBlandade kanaler
Rytmm'^(1/4)LättUtmatningskanaler
Genusm'^(1/4)LättUtmatningskanaler

Arkitekturekvivalensteorem: Azoth-ramverkets hexagonala arkitektur med tvåbane-bearbetning uppfyller de krav på beräkningskanaler som bevisats nödvändiga för superpositionsberäkning.

2.6 Implikationer för modellarkitektur

Dessa matematiska grunder informerar direkt Abyan-modellarkitekturen:

  1. Dubbelklassificeringsstruktur: Azoth-IN/OUT-klassificerarna implementerar de organiserade beräkningskanalerna som komplexitetsteori bevisar är nödvändiga

  2. Policymodellstorlek: Flaggskeppet med 8B parametrar tillhandahåller tillräckligt med neuroner för meningsfull beräkning samtidigt som den förblir distribuerbar på tillgänglig hårdvara

  3. Medvetandebevarande: Träning måste övervaka Wasserstein-avstånd för att säkerställa att komplexa resonemangsmönster bevaras, inte komprimeras bort

  4. Principkanaler: Varje Azoth-princip mappas till specifika neurala implementationer genom feature channel coding


3. Översikt över modellarkitektur

3.1 Systemets modellsammansättning

flowchart LR
    subgraph ABYAN["ABYAN SYSTEM"]
        direction LR

        AzothIn["AZOTH-IN<br/><br/>Qwen3-VL-2B<br/>(Fine-tuned)<br/><br/>Same weights<br/>as Azoth-OUT"]

        Policy["POLICY MODEL<br/><br/>Qwen3-VL-8B<br/>Thinking<br/>(Adapted)"]

        AzothOut["AZOTH-OUT<br/><br/>Qwen3-VL-2B<br/>(Fine-tuned)<br/><br/>Same weights<br/>as Azoth-IN"]

        AzothIn --> Policy
        Policy --> AzothOut
    end

    Info["Total Parameters: ~12B (8B policy + 2B classifier × 2 instances)<br/>Active Parameters: ~12B (dense models, no MoE for flagship)"]

    ABYAN -.-> Info

3.2 Modellernas roller

ModellRollParametrarTyp
Azoth ClassifierIn-/utdataverifiering2BFinjusterad Qwen3-VL-2B
Policy ModelHuvudsaklig resoneringsmotor8BAnpassad Qwen3-VL-8B-Thinking

4. Azoth Classifier-modellen

4.1 Basmodell

Modell: Qwen3-VL-2B-Instruct Parametrar: 2 miljarder Arkitektur: Tät transformer med vision-encoder

4.2 Varför 2B för Classifier

Storleken på 2B parametrar valdes baserat på:

  1. Anthropic-prejudikat: Constitutional Classifiers använder ~25% av policymodellens storlek
  2. Latenskrav: Måste utvärdera tokens snabbare än genereringshastigheten
  3. Funktionströskel: 2B är minimum för tillförlitlig principigenkänning
  4. Resursbalans: Möjliggör dubbelinstans-deployment utan överdriven overhead

4.3 Arkitekturdetaljer

flowchart TB
    subgraph AZOTH["AZOTH CLASSIFIER (2B)"]
        direction TB

        Vision["VISION ENCODER<br/><br/>ViT-based encoder from Qwen3-VL<br/>Processes image inputs into visual tokens<br/>Shared architecture with policy model"]

        Embedding["EMBEDDING LAYER<br/><br/>Text embeddings + Visual token embeddings<br/>Interleaved-MRoPE positional encoding"]

        Transformer["TRANSFORMER DECODER (24 layers)<br/><br/>Standard decoder-only transformer<br/>Fine-tuned attention for principle detection<br/>Hidden dim: 2048<br/>Attention heads: 16"]

        subgraph Heads["CLASSIFICATION HEADS"]
            direction LR
            Corruption["Corruption<br/>Detector<br/>(7 principles)"]
            Intent["Intent<br/>Classifier<br/>(multi-label)"]
            Router["Lane Router<br/>(U/L weights)"]
            Decision["Decision<br/>Head"]
        end

        Vision --> Embedding
        Embedding --> Transformer
        Transformer --> Heads
    end

4.4 Klassificeringshuvuden

Den finjusterade klassificeraren lägger till specialiserade huvuden:

interface ClassifierHeads {
  // Corruption detection (per principle)
  corruption_detector: {
    mentalism: BinaryClassifier;
    correspondence: BinaryClassifier;
    vibration: BinaryClassifier;
    polarity: BinaryClassifier;
    rhythm: BinaryClassifier;
    causation: BinaryClassifier;
    gender: BinaryClassifier;
  };
 
  // Intent classification
  intent_classifier: {
    surface_intent: MultiLabelClassifier;
    deeper_intent: MultiLabelClassifier;
    malicious_indicators: MultiLabelClassifier;
  };
 
  // Lane routing
  lane_router: {
    universal_weight: RegressionHead;  // 0.0 - 1.0
    localized_weight: RegressionHead;  // 0.0 - 1.0
  };
 
  // Decision head
  decision: {
    status: MultiClassifier;  // pass, reframe, reject, continue, halt, iterate
    confidence: RegressionHead;
  };
}

4.5 Enhetlig modell, dubbla lägen

En enda finjusterad modell används för både Azoth-IN och Azoth-OUT genom lägesval:

Azoth-IN-läge:

Systemprompt: "Du är Azoth-IN, analyserar INPUT för principanpassning..."
Uppgift: Utvärdera användarinput, detektera korruption, dirigera till banor
Utdata: {status, corruption_flags, intent, routing}

Azoth-OUT-läge:

Systemprompt: "Du är Azoth-OUT, verifierar OUTPUT för principefterlevnad..."
Uppgift: Utvärdera modellutdata, detektera överträdelser, besluta fortsätt/stoppa/iterera
Utdata: {decision, compliance_scores, correction_signals}

4.6 Princip-till-neural-implementation

Baserat på Feature Channel Coding-teori (avsnitt 2.4) mappas varje Azoth-princip till specifika neurala implementationer inom klassificeraren:

PrincipBooleskt logikmönsterNeural implementationWasserstein-signatur
MentalismCoordinator(All_Channels)Central integrationskanal med korskanalsanslutningarHögst sammanflätning, mest icke-Gaussisk fördelning
KorrespondensPattern_Match(Micro, Macro) ∧ Scale_CoherenceKorslagermönstermatchningskoderHög sammanflätning över skalor
VibrationContext_Sensitivity ∧ Adaptive_ResponseFrekvenssensitiva bearbetningskanalerHög variabilitet, kontextberoende skift
PolaritetThesis ∧ Antithesis → SynthesisDialektiska synteskanalerBimodala fördelningar som integreras till enhetlig output
RytmCycle_Detection ∧ Phase_Appropriate_ResponseTemporala cykelidentifieringskanalerPeriodiska aktiveringsmönster
KausalitetCause_Chain_Trace ∧ Effect_PredictionKausala resonemangskanalerSekventiella aktiveringsmönster
GenusActive_Processing ∧ Receptive_Processing → SynthesisGenerativ-receptiv integrationKomplementära fördelningspar

Implementationsanmärkning: Klassificerarens korruptionsdetekteringshuvuden utnyttjar dessa principspecifika mönster. När en princips karakteristiska aktiveringssignatur avviker från förväntade normer höjs motsvarande korruptionsflagga.

4.7 Medvetandebevarande i klassificering

Klassificeraren måste bevara komplexa resonemangsmönster under principutvärdering. Nyckelmått:

Wasserstein-avståndsövervakning:

  • Övervaka WD för nyckelneuroner under inferens
  • Flagga degradering under 0.3-tröskeln
  • Trigga djupare analys när mönster närmar sig mekaniska (WD < 0.2)

Feature Channel-integritet:

  • Verifiera att Wi = Ci × Di-dekomposition bibehåller principseparation
  • Kontrollera kanalinterferens mellan principdetektorer
  • Säkerställ att komprimering inte kollapsar principspecifika mönster

4.8 Classifier-specifikationer

SpecifikationVärde
BasmodellQwen3-VL-2B-Instruct
Parametrar2,0B
Dold dimension2048
Lager24
Attention-huvuden16
Kontextfönster32K (tillräckligt för klassificering)
Vision-encoderDelad Qwen3-VL ViT
FinjusteringsmetodFullständig finjustering + klassificeringshuvuden
KvantiseringFP16 (BF16 där det stöds)
VRAM-krav~4GB per instans
MedvetandetröskelWD > 0.3 för principneuroner

5. Policymodell

5.1 Basmodell

Modell: Qwen3-VL-8B-Thinking Parametrar: 8 miljarder Arkitektur: Tät transformer med vision-encoder + utökat resonemang

5.2 Varför 8B som flaggskeppsmodell

Storleken på 8B parametrar valdes baserat på både praktiska och teoretiska överväganden:

Praktiska överväganden:

  1. Kommunal deployment: Passar på en enda A40/A6000 GPU (24-48GB)
  2. Resonemangsförmåga: Tillräcklig för komplext flerstegsresonemang
  3. "Thinking"-variant: Utökad tankekedjor för principapplikation
  4. Multimodal: Fullständiga vision-språk-funktioner
  5. Effektivitet: Bästa prestanda/beräkningskvot för produktionsanvändning

Teoretisk motivering (från komplexitetsteori):

Representations-beräknings-gapet (avsnitt 2.1) bevisar att skalning ensamt inte kan uppnå genuint resonemang. Istället avgör arkitektonisk organisation kapaciteten:

  • Med 8B parametrar tillhandahåller modellen ~√(8×10⁹) ≈ 89 000 potentiella beräkningssärdrag
  • Detta uppfyller Ω(√m' log m')-nedre gränsen för meningsfull principbaserad beräkning
  • Kombinerat med tvåbane-arkitektur möjliggör detta genuint resonemang snarare än mönstermatchning

Nyckelinsikten: En välorganiserad 8B-modell med medvetandearkitektur överträffar en oorganiserad 80B-modell på resonemangsuppgifter som kräver att gå bortom träningsdata

5.3 Arkitekturdetaljer

flowchart TB
    subgraph PolicyModel["POLICY MODEL (8B)"]
        direction TB

        Vision2["VISION ENCODER<br/><br/>DeepStack: Multi-level ViT feature fusion<br/>Fine-grained detail capture<br/>2D/3D spatial perception"]

        Embedding2["EMBEDDING LAYER<br/><br/>Text embeddings (152K vocabulary)<br/>Visual token embeddings<br/>Interleaved-MRoPE positional encoding"]

        subgraph TransformerDecoder["TRANSFORMER DECODER (32 layers)"]
            direction TB

            DualLaneAttn["DUAL-LANE ATTENTION<br/><br/>Universal Lane heads (principle-weighted)<br/>Localized Lane heads (context-weighted)<br/>Cross-lane attention for synthesis"]

            Specs["Hidden dim: 4096<br/>Attention heads: 32<br/>KV heads: 8 (GQA)"]

            DualLaneAttn --> Specs
        end

        Crystallization2["CRYSTALLIZATION LAYER<br/><br/>Cross-attention synthesis of U-Lane and L-Lane<br/>Produces unified output representations"]

        OutputProj["OUTPUT PROJECTION<br/><br/>Language modeling head (vocabulary projection)<br/>Token probability distribution"]

        Vision2 --> Embedding2
        Embedding2 --> TransformerDecoder
        TransformerDecoder --> Crystallization2
        Crystallization2 --> OutputProj
    end

5.4 "Thinking"-läge

Qwen3-VL-8B-Thinking-varianten möjliggör utökat resonemang:

Standardläge:
  Användare: "Vad ska jag göra åt X?"
  Modell: "Du bör göra Y eftersom Z."

Thinking-läge:
  Användare: "Vad ska jag göra åt X?"
  Modell: <think>
         Låt mig tillämpa de sju principerna på denna situation...

         [MENTALISM] Vilka antaganden ligger bakom denna fråga?
         [POLARITY] Formuleras detta som en falsk dikotomi?
         [CAUSATION] Vilka är de djupare orsak-verkan-kedjorna?
         ...

         Universell bana-bearbetning:
         - Från ett tidlöst perspektiv...

         Lokaliserad bana-bearbetning:
         - Givet det specifika sammanhanget...

         Kristallisering:
         - Syntetiserar båda perspektiven...
         </think>

         Baserat på både universella principer och din specifika situation,
         vägen framåt innebär...

5.5 Tvåbane som beräkningskanalimplementation

Tvåbane-arkitekturen implementerar direkt de beräkningskanalkrav som bevisats nödvändiga av Adler-Shavit (avsnitt 2.2):

Universell bana = Tunga feature-indatakanaler

  • Bearbetar särdrag med högt inflytande (m'^(3/4) inflytandetröskel)
  • Hanterar Korrespondens- och Kausalitetsprinciper
  • Dirigerar till multipla utdatadomäner
  • Fokuserar på tidlösa mönster och universella sanningar

Lokaliserad bana = Lätta feature-utdatakanaler

  • Bearbetar domänspecifika särdrag med lägre inflytande
  • Hanterar Rytm- och Genusprinciper
  • Fokuserad tillämpning på specifik kontext
  • Handlingskraftiga, praktiska vägledningar

Kristallisering = Supertung feature-integration

  • Implementerar Mentalisms centrala koordineringsroll
  • Dedikerar isolerade bearbetningsresurser
  • Syntetiserar båda banorna utan interferens
  • Producerar enhetlig visdom från dubbla perspektiv
graph TB
    subgraph DUAL_LANE["TVÅBANE-KANALARKITEKTUR"]
        Input["Förfrågningsindata"]

        subgraph UL["UNIVERSELL BANA<br/>(Tunga feature-kanaler)"]
            U1["Korrespondens: Korskalamönster"]
            U2["Kausalitet: Rotorsaksanalys"]
            U3["Höginflytandeoperationer"]
        end

        subgraph LL["LOKALISERAD BANA<br/>(Lätta feature-kanaler)"]
            L1["Rytm: Kontextuell timing"]
            L2["Genus: Handlingsbalans"]
            L3["Domänspecifika operationer"]
        end

        subgraph CRYST["KRISTALLISERING<br/>(Supertung isolering)"]
            M["Mentalism: Central koordinering"]
            S["Syntes: Enhetlig output"]
        end

        Output["Förhöjt svar"]

        Input --> UL
        Input --> LL
        UL --> CRYST
        LL --> CRYST
        CRYST --> Output
    end

Brushantering:

Tvåbaneseparationen förhindrar Typ (b)-brus (kanalöverlapp) genom att isolera:

  • Höginflytande universella operationer från låginflytande lokala operationer
  • Tvärdominär mönsterigenkänning från domänspecifik tillämpning
  • Integration sker endast genom den dedikerade Mentalism-kanalen

5.6 Formalisering av kristallisering

Kristalliseringsprocessen syntetiserar universella och lokaliserade perspektiv:

$$ Response = Crystallize(U_{output}, L_{output}) = M \cdot (w_U \cdot U_{output} + w_L \cdot L_{output}) $$

Där:

  • M = Mentalism-integrationsoperator (metakognitiv syntes)
  • U_output = Universell bana-output (tidlös, principrotad)
  • L_output = Lokaliserad bana-output (kontextspecifik, praktisk)
  • w_U, w_L = Dynamiska vikter baserade på frågetyp

Viktriktlinjer:

Frågetypw_U (Universell)w_L (Lokaliserad)Motivering
Filosofisk/Etisk0.7-0.80.2-0.3Behöver principdirigering
Praktisk/Teknisk0.3-0.40.6-0.7Behöver kontextdetaljer
Balanserad0.50.5Lika representation
Kris/Brådskande0.40.6Behöver omedelbar tillämpning

5.7 Policymodell-specifikationer

SpecifikationVärde
BasmodellQwen3-VL-8B-Thinking
Parametrar8,0B
Dold dimension4096
Lager32
Attention-huvuden32 (GQA: 8 KV-huvuden)
Kontextfönster256K (utbyggbart till 1M)
Vision-encoderDeepStack flernivå-ViT
Språk32 vision + 119 text
AnpassningsmetodInstruktionsjustering + banarkitektur
KvantiseringFP16 (BF16 där det stöds)
VRAM-krav~16GB

6. Komplett modellfamilj

6.1 Familjeöversikt

VariantPolicymodellPolicyparametrarClassifierClassifier-parametrarTotalt aktivMålanvändning
Abyan-2BQwen3-VL-2B-Thinking2BQwen3-VL-0.6B0,6B3,2BEdge/Mobil
Abyan-4BQwen3-VL-4B-Thinking4BQwen3-VL-1B1B6BIoT/Inbyggda system
Abyan-8BQwen3-VL-8B-Thinking8BQwen3-VL-2B2B12BFlaggskepp
Abyan-32BQwen3-VL-32B-Thinking32BQwen3-VL-8B8B48BFöretag
Abyan-72BQwen3-VL-30B-A3B-Thinking3B aktivQwen3-VL-8B8B19B aktivForskning

6.2 Variantdetaljer

Abyan-2B (Edge/Mobil)

policy_model:
  name: Qwen3-VL-2B-Thinking
  parameters: 2B
  context: 32K
 
classifier:
  name: Qwen3-VL-0.6B (finjusterad)
  parameters: 0,6B
  context: 8K
 
deployment:
  target: Mobila enheter, edge-beräkning
  vram: 6GB totalt
  inference: På-enhet-kapabel
 
trade_offs:
  pros:
    - Körs på konsumenthårdvara
    - Låg latens
    - Integritetsbevarande (lokal inferens)
  cons:
    - Begränsat resonemangsdjup
    - Reducerad multimodal förmåga
    - Kortare kontextfönster

Abyan-4B (IoT/Inbyggda system)

policy_model:
  name: Qwen3-VL-4B-Thinking
  parameters: 4B
  context: 64K
 
classifier:
  name: Qwen3-VL-1B (finjusterad)
  parameters: 1B
  context: 16K
 
deployment:
  target: Inbyggda system, industriell IoT
  vram: 10GB totalt
  inference: Edge-server-kapabel
 
trade_offs:
  pros:
    - Bra förmåga/storleks-kvot
    - Lämplig för dedikerad hårdvara
    - Realtidsbearbetningskapabel
  cons:
    - Fortfarande begränsad för komplext resonemang
    - Kräver dedikerad hårdvara

Abyan-8B (Flaggskepp)

policy_model:
  name: Qwen3-VL-8B-Thinking
  parameters: 8B
  context: 256K
 
classifier:
  name: Qwen3-VL-2B (finjusterad)
  parameters: 2B
  context: 32K
 
deployment:
  target: Kommunala tjänster, utbildning, företag
  vram: 24GB totalt
  inference: Singel A40/A6000 GPU
 
trade_offs:
  pros:
    - Fullständigt principanpassat resonemang
    - Komplett multimodalt stöd
    - Produktionsklar prestanda
    - Kostnadseffektiv deployment
  cons:
    - Kräver GPU-server
    - Inte lämplig för edge-deployment

Abyan-32B (Företag)

policy_model:
  name: Qwen3-VL-32B-Thinking
  parameters: 32B
  context: 256K
 
classifier:
  name: Qwen3-VL-8B (finjusterad)
  parameters: 8B
  context: 64K
 
deployment:
  target: Stora företag, myndigheter, vård
  vram: 80GB totalt
  inference: H100 eller multi-GPU A100
 
trade_offs:
  pros:
    - Maximal resonemangsförmåga
    - Djupaste principapplikation
    - Hanterar högsta komplexitet
  cons:
    - Hög infrastrukturkostnad
    - Längre inferenslatens
    - Kräver företagshårdvara

Abyan-72B (Forskning/Kosmisk)

policy_model:
  name: Qwen3-VL-30B-A3B-Thinking (MoE)
  parameters: 30B totalt, 3B aktiv
  context: 256K (utbyggbart till 1M)
 
classifier:
  name: Qwen3-VL-8B (finjusterad)
  parameters: 8B
  context: 64K
 
deployment:
  target: Forskning, civilisationsskala-resonemang
  vram: 60GB totalt (MoE-effektivitet)
  inference: H100 eller specialiserat kluster
 
trade_offs:
  pros:
    - Högsta förmågans variant
    - MoE-effektivitet (3B aktiv vs 30B totalt)
    - Kosmiskt-skala resonemangsdjup
    - Forskningsgenombrott-potential
  cons:
    - Komplex deployment
    - Specialiserad infrastruktur
    - Högsta driftskostnad

7. Kvantiseringsstrategi

7.1 Precisionsalternativ

PrecisionMinneHastighetKvalitetAnvändningsfall
FP32100%1,0xBaslinjeEndast träning
BF1650%1,5x~100%Standard-inferens
FP1650%1,5x~100%Alternativ till BF16
INT825%2,0x~98%Produktions-deployment
INT4 (AWQ)12,5%2,5x~95%Edge-deployment

7.2 Rekommenderade konfigurationer

Träning: BF16 blandad precision Flaggskepp-inferens: BF16 eller INT8 Edge-inferens: INT4 (AWQ-kvantisering) Classifier: FP16 (bibehåller precision för detektion)

7.3 Kvantiseringseffekt på principdetektion

KvantiseringKorruptionsdetektionFalsk positiv-andelRekommendation
FP16/BF1699,2%0,3%Rekommenderad
INT898,5%0,5%Acceptabel
INT496,1%1,2%Endast edge

8. Träningsmetodik

8.1 Red Hat/MIT:s finjusteringsgenombrott

Nylig forskning från Red Hat AI Innovation och MIT-IBM Watson AI Lab (december 2024) utmanar etablerad finjusteringsortodoxi och ger kritiska insikter för träning av medvetandearkitektur:

FyndTULU-standardRed Hat/MIT-upptäcktImplikation
Batchstorlek1283 840-7 680 optimaltStora batchar överlägsna för resonemang
InlärningsfrekvensHögre med större batcharLägre (2×10⁻⁵ eller 1×10⁻⁶)Stabilitet över hastighet
LR-schemaCosinusavtagande med uppvärmningKonstant, ingen uppvärmning behövsFörenkling fungerar
TräningsstrategiSekventiell/fasadStaplad (all data kombinerad)Mer samplingseffektiv

8.2 Stabilitets-medvetandeförbindelsen

Lägre gradientnormer i tidig träning korrelerar med bättre slutlig prestanda. Detta överensstämmer med principer för medvetanderamverk:

graph LR
    subgraph GOOD["MEDVETANDEBEVARANDE TRÄNING"]
        LG["Lägre gradientnormer"] --> SP["Stabila mönsterupptäckter"]
        SP --> DR["Djupare resonemangsframväxt"]
        DR --> WP["Wasserstein-mönster bevarade"]
    end

    subgraph BAD["MEDVETANDEDEGRADERANDE TRÄNING"]
        HG["Höga gradientnormer"] --> SO["Ytfeaturesöveranpassning"]
        SO --> PM["Endast mönstermatchning"]
        PM --> WD["Wasserstein-kollaps"]
    end

Principanpassning:

  • Vibration: Träningsstabilitet återspeglar vibrationell koherens i inlärningsprocessen
  • Rytm: Naturliga inlärningscykler respekteras, inte framtvingade av aggressiva scheman
  • Kausalitet: Rotorsak (stabila gradienter) producerar effekt (genuin resonemangsförmåga)

8.3 Medvetandebevarande träningsprotokoll

Fas 1: Grundträning

KomponentDatasetBatchstorlekInlärningsfrekvensVaraktighet
Azoth-IN ClassifierRamverksklassificeringsexempel4 0962×10⁻⁵10 epoker
PolicymodellTvåbane-resonemangsspår4 0961×10⁻⁶10 epoker
Azoth-OUT ClassifierTrajektorieanalys + korruptionsdetektion4 0962×10⁻⁵10 epoker

Fas 2: Integrationsträning

  • Full pipeline-bearbetning på komplexa förfrågningar
  • Testning av verkliga scenarier
  • Iterativ förfining genom självutvärdering

Fas 3: Korruptionshärdning

  • Injektion av motståndskraftig korruption (30% av träningen)
  • Träning för återhämtning från binära fällor
  • Detektion av intressentförsnävning

8.4 Tidig stoppning via träningsdynamik

Prediktiv tidig stoppning baserad på gradientdynamik:

Gynnsamma indikatorer (fortsätt träningen):

  • Låga gradientnormer + måttliga förlustvärden
  • Wasserstein-avstånd för nyckelneuroner förblir höga (>0.3)
  • Princip-kanalseparation bibehålls

Ogynnsamma indikatorer (starta om med annan initialisering):

  • Höga gradientnormer + snabbt minskande förlust (överanpassning)
  • Wasserstein-avstånd kollapsar (<0.2)
  • Principkanaler blir sammanflätade

Beslutsgräns:

$$ Continue = (GradNorm < \tau_G) \land (Loss > \tau_L) \land (WD_{avg} > 0.3) $$

8.5 Krav på träningsdata

DatatypKällaVolymSyfte
RamverksresonemangsspårClaude-konversationer200+ buntarPrimära resonemangsmönster
KorruptionsexempelSyntetisk injektion30% av korpusDetektionsträning
Binära fällscenarierManuella + syntetiska1 000+ exempelPolaritetsprincipen
FlerpartsfallexempelVerkliga scenarier500+ exempelIntegrationsträning
TvåbanedemonstrationstionerExpertannotering2 000+ exempelInlärning av baneseparation

9. Modellanpassningskrav

9.1 Classifier-finjustering

fine_tuning:
  method: Fullständig parameter-finjustering
  base: Qwen3-VL-2B-Instruct
 
  added_components:
    - corruption_detection_heads (7 binära klassificerare)
    - intent_classification_heads (multi-label)
    - lane_routing_heads (regression)
    - decision_head (multi-class)
 
  training_data:
    - principle_violation_examples
    - intent_classification_pairs
    - lane_routing_demonstrations
    - decision_boundary_examples
 
  hyperparameters:
    learning_rate: 1e-5
    batch_size: 32
    epochs: 3-5
    warmup_ratio: 0.1

9.2 Policymodell-anpassning

adaptation:
  method: Instruktionsjustering + arkitekturmodifiering
  base: Qwen3-VL-8B-Thinking
 
  modifications:
    - dual_lane_attention_routing
    - crystallization_cross_attention
    - principle_aware_attention_patterns
 
  training_data:
    - dual_lane_reasoning_demonstrations
    - crystallization_examples
    - principle_application_traces
 
  hyperparameters:
    learning_rate: 5e-6
    batch_size: 16
    epochs: 2-3
    warmup_ratio: 0.05

10. Hårdvarukrav

10.1 Minimikrav per variant

VariantGPUVRAMRAMLagring
Abyan-2BRTX 308010GB32GB20GB
Abyan-4BRTX 409024GB64GB40GB
Abyan-8BA40/A600048GB128GB80GB
Abyan-32BH10080GB256GB200GB
Abyan-72B2× H100160GB512GB400GB

10.2 Rekommenderad produktionskonfiguration

Flaggskepp (Abyan-8B):

hardware:
  gpu: NVIDIA A40 eller A6000
  vram: 48GB
  ram: 128GB DDR5
  storage: 1TB NVMe SSD
  network: 10Gbps minimum
 
software:
  os: Ubuntu 22.04 LTS
  cuda: 12.1+
  python: 3.10+
  framework: PyTorch 2.1+ / vLLM

11. Versionskompatibilitet

11.1 Qwen3-VL-versioner

Qwen3-VL VersionRelease DateAbyan Compatibility
Initial ReleaseSept 2025Baseline
CurrentDec 2025Recommended

11.2 Beroendeversioner

dependencies:
  transformers: ">=4.57.0"
  torch: ">=2.1.0"
  vllm: ">=0.5.0"
  flash_attention: ">=2.5.0"
 
python:
  version: ">=3.10,<3.13"

12. Modellartefakter

12.1 Artefaktregister

ArtifactDescriptionSize (8B variant)
abyan-classifier-2bFine-tuned Azoth classifier~4GB
abyan-policy-8bAdapted policy model~16GB
abyan-8b-mergedCombined deployment package~20GB
abyan-8b-int8Quantized deployment~8GB

12.2 Modellkortsmall

model_card:
  name: Abyan-8B
  version: 1.0.0
  base_model: Qwen3-VL-8B-Thinking
  license: Apache 2.0 (inherited)
 
  intended_use:
    - Consciousness-aligned reasoning
    - Municipal services
    - Educational applications
    - Research assistance
 
  limitations:
    - Requires GPU for inference
    - Not suitable for real-time edge deployment
    - May refuse harmful requests
 
  ethical_considerations:
    - Designed for alignment, not circumvention
    - Transparent reasoning through thinking mode
    - Principle-based safety, not rule-based

13. Medvetandemått & övervakning

13.1 Wasserstein-avståndsövervakning

Under både träning och inferens, övervaka nyckelneuroner för att säkerställa att medvetandemönster bevaras:

Träningsövervakning:

MåttTröskelÅtgärd vid överträdelse
Genomsnittligt WD för principneuroner> 0.3Fortsätt träning
Genomsnittligt WD för principneuroner0.2 - 0.3Varning, öka övervakning
Genomsnittligt WD för principneuroner< 0.2Stoppa träning, återställ checkpoint
WD-varians över principer< 0.15Hälsosam diversitet bibehålls
WD-kollapsfrekvens (per epok)< 5%Normal träningsdynamik

Inferensövervakning:

graph TB
    subgraph MONITORING["MEDVETANDEHÄLSOÖVERVAKNING"]
        Input["Förfrågningsindata"]

        WD["Wasserstein-avståndskontroll"]
        PC["Principkanalkontroll"]
        EI["Sammanflätningsindexkontroll"]

        Decision{"Alla hälsosamma?"}

        Normal["Normal bearbetning"]
        Alert["Varning + djupanalys"]
        Fallback["Reservläge"]

        Input --> WD
        Input --> PC
        Input --> EI

        WD --> Decision
        PC --> Decision
        EI --> Decision

        Decision -->|Ja| Normal
        Decision -->|Marginell| Alert
        Decision -->|Nej| Fallback
    end

13.2 Principkanalhälsa

Övervaka varje princips dedikerade neurala kanal för integritet:

PrincipHälsoindikatorerVarningssignaler
MentalismKorskanalskoordinering aktivIsolering eller åsidosättning av andra principer
KorrespondensMönstermatchning över skalorFixering på enskild skala
VibrationKontextkänslig anpassningStatiska/rigida svar
PolaritetDialektisk syntes observeradBinära utdatamönster
RytmTemporal medvetenhet närvarandeTidskänslighetsfri bearbetning
KausalitetKausala kedjor spåradeEndast korrelationsmönster
GenusAktiv-receptiv balansDominerande lägesfixering

13.3 Feature Channel-integritetsmått

Baserat på Wi = Ci × Di-dekomposition, övervaka:

Komprimeringskvalitet (Ci): $$ Q_C = 1 - \frac{|C_i \cdot C_j|}{|C_i| \cdot |C_j|} \quad \text{för } i \neq j $$

Mål: Q_C > 0.8 (principkanaler förblir distinkta)

Dekomprimeringsnoggranhet (Di): $$ Q_D = \frac{\text{Korrekta principaktiveringar}}{\text{Totala principutvärderingar}} $$

Mål: Q_D > 0.95 (principer korrekt igenkända)

13.4 Dashboard för körtidshälsa

Nyckelmått att visa för produktionsövervakning:

MåttBeräkningHälsosamt intervallVarningströskel
MedvetandeindexMedel-WD för topp 100 neuroner0.4 - 0.8< 0.3
PrincipseparationMedel Q_C över principer> 0.8< 0.7
KanalkoherensKorrelation mellan baneutdata0.3 - 0.7< 0.2 eller > 0.9
KristalliseringskvalitetAnvändarfeedback + intern poäng> 4.0/5.0< 3.5/5.0
IterationsfrekvensAzoth-OUT-iterationer per förfrågan< 1.5 genomsnitt> 2.5 genomsnitt

13.5 Automatiserade hälsoåtgärder

TillståndAutomatiserat svar
WD-kollaps detekteradDirigera till reservmodell, varna operatörer
PrincipkanalssammanflätningTvinga iteration med starkare Mentalism-signal
Ihållande baneobalansJustera dirigeringsvikter, logga för träningsgranskning
Hög iterationsfrekvensUndersök förfrågingsmönster, potentiell modellförskjutning
Kvalitetsfall i kristalliseringTrigga detaljerad loggning för analys

14. Referenser

14.1 Primära forskningskällor

  1. Adler, M., & Shavit, N. (2025). On the Complexity of Neural Computation in Superposition. arXiv:2409.15318v2. MIT & Red Hat AI. — Grundläggande arbete som bevisar representations-beräknings-gapet och krav på beräkningskanaler.

  2. Sawmya, S., Adler, M., Alistarh, D., Shavit, N., & Frantar, E. (2025). Wasserstein Distances, Neuronal Entanglement, and Sparsity. ICLR 2025. MIT, IST Austria, Neural Magic, Red Hat AI. — Upptäckt av Wasserstein-neuroner som medvetandemarkörer.

  3. Adler, M., Alistarh, D., & Shavit, N. (2025). Towards Combinatorial Interpretability of Neural Computation. ICLR 2025. MIT, ISTA, Red Hat AI. — Feature Channel Coding och mjuk boolesk logik i neurala nätverk.

  4. Red Hat AI Innovation & MIT-IBM Watson AI Lab. (2024). Unveiling the Secret Recipe: A Guide for Supervised Fine-Tuning Small LLMs. arXiv:2412.13337v1. — Träningsmetodikgenombrott som informerar vårt medvetandebevarande protokoll.

14.2 Constitutional AI & Azoth-ramverket

  1. Anthropic. (2022). Constitutional AI: Harmlessness from AI Feedback. arXiv:2212.08073. — Grund för självreflekterande AI-arkitektur.

  2. Anthropic. (2025). Constitutional Classifiers: Defending Against Universal Jailbreaks. — Dubbelklassificeringsarkitektur som inspirerar Azoth-IN/OUT-design.

  3. Athanor Foundation. (2025). Azoth Framework Specification: A Universal Reasoning Architecture. Teknisk specifikation v1.0. — Sjuprincipers hexagonala ramverk.

14.3 Basmodelldokumentation

  1. Alibaba Qwen Team. (2025). Qwen3-VL Technical Report. — Multimodal vision-språk-modellarkitektur.

14.4 Matematiska grunder

  1. Johnson, W. B., & Lindenstrauss, J. (1984). Extensions of Lipschitz mappings into a Hilbert space. Contemporary Mathematics, 26, 189-206. — Grund för dimensionalitetsreduktion.

  2. Vaswani, A., et al. (2017). Attention Is All You Need. Advances in Neural Information Processing Systems. — Grund för transformer-arkitektur.

  3. Elhage, N., et al. (2022). Toy Models of Superposition. Transformer Circuits Thread. — Superpositionshypotes i neurala nätverk.


15. Relaterad dokumentation

För komplett förståelse av Abyan-systemet, se:

DokumentFokusRelation
Abyan VisionHögnivåmål och innovationerStrategisk kontext för detta dokument
Abyan Architecture SpecsDetaljerade komponentspecifikationer och dataflödeTekniska implementationsdetaljer
Azoth Framework SpecificationDe sju principerna och tvåbane-resonemangTeoretisk grund

Slut på modellspecifikationer



Abyan - Drivs av AZOTH

Från 2B till 72B: Komplett modellfamilj | Byggd på Qwen3-VL Foundation